Approche hybride - lexicale et thématique - pour la modélisation, la détection et l'exploitation des fonctions lexicales

icon

390

pages

icon

Français

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

390

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

these:version du mardi 21 mars 2006 `a 14 h 25
Num´ero d’identification :
´Academie de Montpellier
´U n i v e r s i t e M o n t p e l l i e r I I
— Sciences et Techniques du Languedoc —
`T h e s e
pr´esent´ee a` l’Universit´e des Sciences et Techniques du Languedoc
pour obtenir le diplomeˆ de DOCTORAT
´ ´Specialite : Informatique
Formation Doctorale : Inforue
´Ecole Doctorale : Information, Structures, Syst`emes
Approche hybride - lexicale et th´ematique -
pour la mod´elisation, la d´etection et l’exploitation
des fonctions lexicales
en vue de l’analyse s´emantique de texte
par
Didier Schwab
Soutenue le 7 d´ecembre 2005 devant le Jury compos´e de :
Christian Boitet, Professeur, Universit´e Joseph Fourier (Grenoble 1), GETA, CLIPS...............Rapporteur
G´erard Sabah, Directeur de Recherche CNRS, LIMSI, Orsay.......................................Rapporteur
Roland Ducournau, Professeur, Universit´e Montpellier II....................................Pr´esident du jury
´Christophe Lecerf, Professeur, Ecole des Mines d’Al`es...........................................Examinateur
Violaine Prince, Professeur, Universit´e Montpellier II.......................................Directrice de th`ese
Mathieu Lafourcade, Maˆıtre de conf´erence, Universit´e Montpellier II....................Co-directeur de th`ese these:version du mardi 21 mars 2006 `a 14 h 25 these:version du mardi 21 mars 2006 `a 14 h 25
Num´ero d’identification :
´Academie de Montpellier
´U n i v e r s i t e M o n t p ...
Voir icon arrow

Publié par

Nombre de lectures

142

Langue

Français

Poids de l'ouvrage

5 Mo

these:version du mardi 21 mars 2006 `a 14 h 25 Num´ero d’identification : ´Academie de Montpellier ´U n i v e r s i t e M o n t p e l l i e r I I — Sciences et Techniques du Languedoc — `T h e s e pr´esent´ee a` l’Universit´e des Sciences et Techniques du Languedoc pour obtenir le diplomeˆ de DOCTORAT ´ ´Specialite : Informatique Formation Doctorale : Inforue ´Ecole Doctorale : Information, Structures, Syst`emes Approche hybride - lexicale et th´ematique - pour la mod´elisation, la d´etection et l’exploitation des fonctions lexicales en vue de l’analyse s´emantique de texte par Didier Schwab Soutenue le 7 d´ecembre 2005 devant le Jury compos´e de : Christian Boitet, Professeur, Universit´e Joseph Fourier (Grenoble 1), GETA, CLIPS...............Rapporteur G´erard Sabah, Directeur de Recherche CNRS, LIMSI, Orsay.......................................Rapporteur Roland Ducournau, Professeur, Universit´e Montpellier II....................................Pr´esident du jury ´Christophe Lecerf, Professeur, Ecole des Mines d’Al`es...........................................Examinateur Violaine Prince, Professeur, Universit´e Montpellier II.......................................Directrice de th`ese Mathieu Lafourcade, Maˆıtre de conf´erence, Universit´e Montpellier II....................Co-directeur de th`ese these:version du mardi 21 mars 2006 `a 14 h 25 these:version du mardi 21 mars 2006 `a 14 h 25 Num´ero d’identification : ´Academie de Montpellier ´U n i v e r s i t e M o n t p e l l i e r I I — Sciences et Techniques du Languedoc — `T h e s e pr´esent´ee a` l’Universit´e des Sciences et Techniques du Languedoc pour obtenir le diplomeˆ de DOCTORAT ´ ´Specialite : Informatique Formation Doctorale : Inforue ´Ecole Doctorale : Information, Structures, Syst`emes Approche hybride - lexicale et th´ematique - pour la mod´elisation, la d´etection et l’exploitation des fonctions lexicales en vue de l’analyse s´emantique de texte par Didier Schwab Soutenue le 7 d´ecembre 2005 devant le Jury compos´e de : Christian Boitet, Professeur, Universit´e Joseph Fourier (Grenoble 1), GETA, CLIPS...............Rapporteur G´erard Sabah, Directeur de Recherche CNRS, LIMSI, Orsay.......................................Rapporteur Roland Ducournau, Professeur, Universit´e Montpellier II....................................Pr´esident du jury ´Christophe Lecerf, Professeur, Ecole des Mines d’Al`es...........................................Examinateur Violaine Prince, Professeur, Universit´e Montpellier II.......................................Directrice de th`ese Mathieu Lafourcade, Maˆıtre de conf´erence, Universit´e Montpellier II....................Co-directeur de th`ese these:version du mardi 21 mars 2006 `a 14 h 25 these:version du mardi 21 mars 2006 a` 14 h 25 Cette th`ese est d´edi´ee `a l’ensemble des instituteurs et professeurs que j’ai eu au cours de ma scolarit´e ainsi qu’aux hommes et aux femmes qui ont permis l’´ecole gratuite et obligatoire et qui m’ont, par l`a, autoris´e `a faire des ´etudes. v these:version du mardi 21 mars 2006 a` 14 h 25 vi these:version du mardi 21 mars 2006 a` 14 h 25 Remerciements Une th`ese est une aventure tant professionnelle que personnelle. Elle repr´esente plusieurs ann´ees de travail. D´efricher un domaine, essayer d’en assimiler les probl´ematiques importantes et enfin comprendre ce qu’on pourrait essayer de lui apporter est une entreprise de presque chaque instant. Pour m’avoir aid´e dans cette exploration par leurs conseils et leurs encouragements, je vou- drais remercier ici, mes directeurs Violaine Prince et Mathieu Lafourcade. Pour avoir toujours critiqu´e mes travaux avec justesse, pour m’avoir encourag´e et conseill´e a` plusieurs reprises et enfin pour avoir accept´e d’ˆetre rapporteur de cette th`ese, je tiens parti- culi`erement `a remercier Christian Boitet. Toutemagratitudeva´egalementa`G´erardSabah quia`lafoisparses´ecritsetsesinterrogation a su ´eveiller chez moi certains questionnements sur la repr´esentation du sens. Je le remercie de m’avoir fait l’honneur de rapporter mes travaux. L’importance de la notion de double-boucle dans l’apprentissage a ´et´e `a la fois un r´esultat et un objectif central de cette th`ese. Son inventeur, Christophe Lecerf, a accept´e d’ˆetre membre de mon jury et je l’en suis reconnaissant. Lorsque je suis arriv´e en licence d’informatique, Roland Ducournau ´etait, avec d’autres, charg´e du stage d’introduction sur UNIX. Par la suite, je l’ai cotoy´e lorsqu’il ´etait directeur du d´epartement informatique et que j’´etais repr´esentant des doctorants au d´epartement. Je le remercie d’avoir ferm´e la boucle en acceptant de pr´esider mon jury et pour sa relecture attentive du m´emoire. Ilvasansdirequecetteth`eses’inscritauseind’une´equipe,l’´equipetraitementalgorithmique dulangage,dontjevoudraisremerciericilesmembresetparticuli`erementJacques Chauch´e pour lesfondementsdesvecteursd’id´eesetpourSYGMART,AlainJoubert poursarelecturesoigneuse decertainespartiesdelath`eseetMehdi Yousfi-Monod poursonenthousiasme,sabonnehumeur et nos discussions sur nos th`eses respectives. Je veux remercier l’ensemble des membres du LIRMM qui directement ou indirectement par leurs encouragements, ont particip´e a` ce travail par l’interm´ediaire des deux directeurs qui se sont succ´ed´es ici pendant sa r´ealisation Michel Habib et Michel Robert. Jeremercielesmembresduserviceadministratifdontletravailalargementaid´elar´ealisation de cette th`ese et en particulier Nicole Olivet pour sa sympathie et sa gentilesse quotidienne. Les exp´eriences men´ees doivent beaucoup a` l’appui offert par le Service Informatique et Techniqueenparticulier Jean-Luc Oms et Michel Jacquot quim’ontaid´eenaccueillantservlets, agents et donn´ees sur les serveurs du laboratoire. Je tiens particuli`erement a` remercier ici quelques-uns des compagnons qui ont travers´e, tra- versentoutraverserontlesmˆemesturpidudesquemoi:Xavier Baril,Nicolas Vidot,Pierre-Alain Laur, Lylia Abrouk, Abdelkader Gouaich, Adorjan Kiss, Simon Jaillet, J´eromˆ e Chapelle, Alexis Criscuolo, Denis Bertrand, Fabien Jourdan, Laurent Brehelin, S`everine B´erard, Mehdi Yousfi- Monod, John Tranier, Cl´ement Jonquet, C´ecile Bonnard, Jean Privat, Luc Frabresse, Christophe Crespelle, C´eline Fiot, Leila Aouati, Fabien Michel, Fabien Jalabert, Mathias Paulin, Fran¸cois Boutin. vii these:version du mardi 21 mars 2006 a` 14 h 25 Remerciements Je voudrais remercier H´eloıse Reynaud et S´everine Lacroix pour les instants partag´es au-¨ tour de th´e, de narguil´es, halt`eres ou vin, soir´ees qui m’ont permis de m’´evader pendant les moments difficiles. Elles savent combien elles comptent pour moi et combien je serai heureux de les retrouver ou` qu’elles se trouvent dans le monde. Merci `a Philippe Boulet pour son amiti´e depuis vingt ans. Merci a` C´eline Chalbos de m’avoir soutenu pour achever la version finale de cette th`ese. Que soient aussi remerci´es pour simplement avoir ´et´e la` Charlotte Peis, Marion Grosch`ene, ´Vincent Nabat, Gael Pages, Fabien Lydoire, Elodie Zamora, Agn`es et Xavier Pera, C´eline Du-¨ rand, Patricia Durand, Shiva, Alexandra Est`eve, Jean-michel et Eug´enie Delorme, Christophe et Magali Palermo, Anny Castonguay, mes cousins R´egis et Nathalie Lussan. Jevoudraisaussiavoirunepens´eepourtousles´etudiants`aquij’aienseign´eouquej’aienca- dr´e pendant quatre ann´ees a` l’universit´e Montpellier II. Je leur souhaite de r´eussir en particulier ceux qui se dirigent vers la recherche scientifique. Je souhaite aussi remercier les personnes avec ´lesquelles j’ai enseign´e Ehoud Ahronovitz, Yolande Aronovithz et Mathieu Lafourcade. Je remercie mon oncle et ma tante Maryse et Jean-Jacques Lussan pour nous avoir aid´e le jour de la soutenance, en particulier mon oncle pour avoir ´evit´e que mes camarades th´esards «aient trop longtemps leur verre vide ». Je voudrais finir en remerciant mes parents Gilberte et Christian Schwab pour l’aide qu’ils m’apportent depuis tant d’ann´ees. viii these:version du mardi 21 mars 2006 a` 14 h 25 Sommaire Remerciements vii Table des figures 1 Notations 5 Introduction 7 I Contexte, ´etat de l’art et premi`eres exp´eriences 13 1 La repr´esentation du Sens en Informatique Linguistique 15 1.1 Le Traitement Automatique du Langage Naturel . . . . . . . . . . . . . . . . 17 1.1.1 Qu’est-ce que le TALN? . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.1.2 Analyse et production d’´enonc´es . . . . . . . . . . . . . . . . . . . . . 20 1.1.3 Mot, item lexical, terme . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.1.4 Niveaux de traitement linguistique . . . . . . . . . . . . . . . . . . . . 22 1.1.4.1 Niveau morphologique . . . . . . . . . . . . . . . . . . . . . 23 1.1.4.2 Niveau syntaxique. . . . . . . . . . . . . . . . . . . . . . . . 24 1.1.4.3 Niveaux s´emantique et pragmatique : un d´ecoupage difficile `a r´ealiser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.2 Repr´esentations d’origine distributionnaliste . . . . . . . . . . . . . . . . . . 28 1.2.1 Approche distributionnelle . . . . . . . . . . . . . . . . . . . . . . . . 28 1.2.2 Repr´esentations saltoniennes et d´eriv´ees . . . . . . . . . . . . . . . . . 29 1.2.2.1 Repr´esentations saltoniennes . . . . . . . . . . . . . . . . . . 29 1.2.2.2 Une approche psycholinguistique : LSA . . . . . . . . . . . . 31 1.3 Repr´esentations symboliques connexionnistes . . . . . . . . . . . . . . . . . . 31 1.3.1 Relations s´emantiques et fonctions lexicales . . . . . . . . . . . . . . . 31 1.3.1.1 Relationss´emantiqueslexicales(ourelationss´emantiquesex- ternes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.3.1.2 Fonctions lexicales de production . . . . . . . . . . . . . . . 33 1.3.2 R´eseaux s´emantiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 ix these:version du mardi 21 mars 2006 a` 14 h 25 Sommaire 1.3.2.1 Origines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 1.3.2.2 Mod`ele . . . . . . . . .
Voir icon more
Alternate Text