18
pages
Français
Documents
1983
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe et accède à tout notre catalogue !
Découvre YouScribe et accède à tout notre catalogue !
18
pages
Français
Documents
1983
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Pierre Lafon
André Salem
L'inventaire des segments répétés d'un texte
In: Mots, mars 1983, N°6. pp. 161-177.
Abstract
AN INVENTORY OF THE REPEATED SEGMENTS IN A TEXT One of the limitations of lexicometry as it is used today is that it
bases its analysis on the casting aside of isolated forms from their syntagmatic environment. By defining a segment as a
sequence of connected forms, P.L. and A.S. are proposing to take an exhaustive census of all the repeated segments in the text.
The Inventory of repeated segments (1RS) which they submit is made up of one part in which the are classed in
alphabetical order, and another in which they are classed in order of decreasing frequency. Statistical analysis on tables of
biforms and triforms (segments composed of two and three forms respectively) show the lexicometric interest of these new
unities in problems of the characteriology and the parentage of the texts. Finally, PL and AS show how the IRS allows us to solve
certain leading to a less arbitrary automatic segmentation of the texts.
Résumé
L'INVENTAIRE DES SEGMENTS RÉPÉTÉS D'UN TEXTE L'une des limites de la lexicométrie telle qu'on la pratique
actuellement est qu'elle fonde ses analyses sur des dépouillements de formes isolées de leur environnement syntagmatique.
Définissant un segment comme une séquence de formes connexes, P.L. et A.S. proposent de faire le recensement exhaustif de
tous les segments répétés du texte. L'inventaire des segments répétés (ISR) qu'ils présentent, comporte une partie où les
segments sont classés par ordre alphabétique et une autre dans laquelle ils sont classés par ordre de fréquence décroissante.
Des analyses statistiques sur des tableaux de biformes et de informes (segments composés respectivement de deux et trois
formes) montrent l'intérêt lexicométrique de ces nouvelles unités dans les problèmes de caractériologie et de parentage des
textes. Enfin, P.L. et A.S. montrent comment l'ISR permet de résoudre certains problèmes pour aboutir à une segmentation
automatique moins arbitraire des textes.
Citer ce document / Cite this document :
Lafon Pierre, Salem André. L'inventaire des segments répétés d'un texte. In: Mots, mars 1983, N°6. pp. 161-177.
doi : 10.3406/mots.1983.1101
http://www.persee.fr/web/revues/home/prescript/article/mots_0243-6450_1983_num_6_1_1101PIERRE LAFON, ANDRÉ SALEM
UNITÉ DE RECHERCHE LEXICOLOGIE ET TEXTES POLITIQUES
INSTITUT NATIONAL DE LA LANGUE FRANÇAISE, SAINT-CLOUD, CNRS Mots, 6, 1983
L'inventaire des segments répétés d'un texte
Lorsque l'on entreprend de soumettre un texte, ou un corpus de textes, à une série
d'analyses quantitatives, il est nécessaire de se donner des règles de segmentation, qui
permettront de reconnaître, au fil du texte, les différentes occurrences d'une même unité de
décompte que l'on appellera «forme». Cette étape soulève la plupart du temps de grosses
difficultés. Pour s'en convaincre, il suffit de noter le grand nombre de solutions apportées
dans la pratique par les équipes de chercheurs qui travaillent dans le domaine de l'indexation
automatique des textes.
Le choix du laboratoire de lexicologie politique de l'ENS de Saint-Cloud s'est porté, dès
1967, sur une solution particulièrement adaptée aux traitements automatisés que nous avons
appelée depuis «l'indexation minimale». Ce mode de segmentation définit les formes que l'on
va décompter comme des suites de caractères comprises entre deux délimiteurs. Ce qui
revient à dire que l'on considère les formes graphiques du texte. Comme toutes les solutions
proposées au problème de la segmentation automatique, celle-ci suscita de nombreuses
critiques, dont certaines étaient largement justifiées par des considérations lexicales élémentair
es. En effet, cette méthode conduit, d'une part, à considérer toutes les flexions d'un même
verbe comme autant de formes différentes, et, d'autre part, à ne pas désambiguïser les
homographes. Elle avait cependant pour nous l'avantage décisif de rendre possibles des
traitements sur ordinateur de textes relativement longs en faisant un minimum d'investiss
ements sur les problèmes de précodage. C'est sur cette base que nous avons pu développer
des méthodes d'analyse lexicométrique visant à rendre compte de la répartition de chacune
des formes dans les différentes parties d'un corpus de textes (méthode des spécificités), ou PIERRE LAFON, ANDRE SALEM 162
encore à établir des typologies de ces parties rapprochant celles qui emploient les mêmes
formes dans des proportions semblables (analyses factorielles, etc.).
Dans un deuxième temps, nous avons tenté de mettre en évidence les cooccurrences de
deux formes à l'intérieur d'une même phrase. Au début, nous avons traité ce problème en
utilisant des méthodes probabilistes 1. L'analyse des résultats de plusieurs expériences sur des
corpus de textes politiques français contemporains nous a conduits à la conclusion que les
méthodes mises en œuvre sélectionnaient, en les mélangeant, deux sortes d'associations de
nature quelque peu différente : d'une part, des couples de formes fonctionnant presque
exclusivement à l'intérieur d'expressions syntagmatiques figées, d'autre part des couples de
formes présentes dans les mêmes phrases quoique fonctionnant dans des contextes immédiats
différents, et à des distances variables.
Il nous a semblé, au vu de ces premiers résultats, que si la méthodologie de recherche
des cooccurrences développée jusque-là était particulièrement bien adaptée à l'étude des
associations du second type, il était possible d'élaborer des méthodes à la fois plus simples et
plus efficaces pour mettre en évidence les associations de formes employées dans des
expressions figées, répétées dans le texte.
Pour une forme donnée, et si le texte que l'on étudie n'est pas trop long, on peut
repérer sans trop de mal les séquences répétées dans lesquelles elle fonctionne, à l'aide des
outils traditionnels du lexicométricien, que sont la concordance et l'index alphabétique. En
effet, en se reportant à l'entrée correspondante d'une concordance munie d'un contexte
suffisamment étendu et dont les lignes sont triées sur la partie droite du contexte par ordre
alphabétique2, on peut dresser la liste des expressions figées qui contiennent cette forme. Si
l'on désire en outre isoler les formes qui n'apparaissent qu'en liaison avec cette forme pôle,
le problème se complique quelque peu. Il faudra alors se livrer à toute une série de
vérifications sur les occurrences de chacunes des deux formes en se reportant tour à tour à
1. Cf. A. Geoffroy, P. Lafon, M. Tournier, «Analyse lexicométrique des cooccurrences et formalisation» in
Actes, Paris, CNRS, Collection documentation, 1971, p. 8-23; communication aux journées d'études du CNRS sur
les applications de l'informatique aux textes philosophiques, 16-17 novembre 1970. Cf. également, P. Lafon,
«Analyse lexicométrique et recherche des coocurrences », Mots, 3, octobre 1981, p. 95-148.
2. M. Sékhraoui, «Possibilités d'exploitation d'édition d'une concordance» in Actes, tome 3, p. 665-678, à
paraître; communication au 2e colloque international «Lexicologie politique du français moderne», Saint-Cloud,
15-20 septembre 1980. LES SEGMENTS RÉPÉTÉS D'UN TEXTE 163
l'index et à la concordance. Pour un texte comportant plusieurs milliers d'occurrences, le
repérage des séquences de formes répétées peut se révéler une opération très longue sinon
impossible. C'est pourquoi nous avons pensé qu'il était indispensable de recourir à de
nouveaux instruments.
L'INVENTAIRE DES SEGMENTS RÉPÉTÉS (ISR)
L'inventaire des segments répétés est une méthode que nous proposons d'utiliser pour
aborder ces problèmes. Pour commencer, précisons quelques notions. Tout d'abord, celle de
séquence: suite de formes comprise entre deux délimiteurs de séquence. Pour faire entrer
cette notion dans une procédure informatisable, nous devons donner une fois pour toutes à
certains signes de ponctuation le statut de délimiteur de séquence. Pour cette étude, nous
avons retenu les signes de ponctuation usuels.