Chapitre 2
Les unités de
la statistique textuelle
La nécessité de comparer des textes sur des bases quantitatives se présente
aux chercheurs dans des domaines scientifiques très divers. Dans chaque cas
particulier, le recours aux méthodes quantitatives est motivé par des
préoccupations différentes et les objectifs poursuivis souvent très distincts
(études stylométriques comparées de textes dus à différents auteurs,
typologies des réponses d'individus à une même question ouverte, recherche
documentaire, etc.).
L'expérience du traitement lexicométrique d'ensembles textuels réunis à
partir de problématiques différentes montre, cependant, que, moyennant une
adaptation minime, un même ensemble de méthodes trouve des applications
pertinentes dans de nombreuses études de caractère textuel. C'est à l'exposé
de ces méthodes que seront consacrés les chapitres qui suivent.
2.1 Le choix des unités de décompte.
Segmentation, identification, lemmatisation, désambiguïsation.
La méthode statistique s'appuie sur des mesures et des comptages réalisés à
partir des objets que l'on veut comparer. Décompter des unités, les
additionner entre elles, cela signifie, d'un certain point de vue, les
considérer, au moins le temps d'une expérience, comme des occurrences
identiques d'un même type ou d'une forme plus générale. Pour soumettre une
série d'objets à des comparaisons statistiques il faut donc, dans un premier
temps, définir une ...
Voir