193
pages
Français
Documents
2010
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe en t'inscrivant gratuitement
Découvre YouScribe en t'inscrivant gratuitement
193
pages
Français
Documents
2010
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Publié par
Publié le
01 novembre 2010
Nombre de lectures
46
Langue
Français
Poids de l'ouvrage
3 Mo
Publié par
Publié le
01 novembre 2010
Nombre de lectures
46
Langue
Français
Poids de l'ouvrage
3 Mo
ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse
pourobtenirlegradedeDocteur
SPÉCIALITÉ: SciencesInformatiques
ÉcoleDoctoraleI2S«InformationStructureSystèmes»
Laboratoired’Informatique(EA931)
Générationdephrasesmultilinguespar
apprentissageautomatiquedemodèlesdephrases
par
EricCharton
Soutenuepubliquementàl’Universitéd’Avignonle12Novembre2010devantunjury
composéde:
meM LaurenceDanlos Professeur, Université Paris 7 (ALPAGE), Rapporteur
Paris
M. GuyLapalme Professeur, Université de Montréal (RALI),
Montréal
M. LaurentBesacier Professeur, Université Joseph Fourier Examinateur
(IMAG),Grenoble
M. Jean-françoisBonastre Professeur, Université d’Avignon (LIA), Avi-
gnon
M. MichelGagnon Professeur, École Polytechnique de Montréal Examinateur
(GIGL),Montréal
M. Juan-ManuelTorres-Moreno MdC (HDR), Université d’Avignon et des Directeur
PaysdeVaucluse(LIA),Avignon
Laboratoired’Informatiqued’Avignon2Remerciements
Mes plus chaleureux remerciements vont en premier lieu à Jean-François Bonastre.
Sans ses encouragements et sa bienveillance, lors de toutes les étapes de cette aven-
ture,c’estcertain,rienn’auraitétépossible.IlsvontensuiteauDrJuan-ManuelTorres-
Moreno qui a bien voulu m’accompagner dans la démarche complexe et prenante que
constituecetravailderecherche.
Je suis particulièrement reconnaissant à tous ceux, membres ou non de la commu-
nauté académique qui m’ont aidé sans autre revendication que celle de me rendre ser-
vice. Merci à Georges Linares de m’avoir fourni tout le matériel dont j’avais besoin
pour mes expériences et d’avoir pris en charge certains aspects logistiques, à Patricia
Velazquez-Morales d’avoir contribué à la mise au point de mes expériences et active-
ment aidé pour la finition d’aspects importants de ce travail, à Frédéric Béchet pour
sacuriositéactiveenversmestravaux.UnremerciementtrèsspécialvaauDrNimaan
Abdillahiquim’ainvitéàmettreunpeud’Afriquedanscetravail(c’étaitunrêve).
Jenevoudraispasoublierdetémoignerdemasympathieenverstouslesmembres
du Laboratoire Informatique d’Avignon et du CERI que j’ai côtoyé au cours de ces
quelquesannées.Jen’enciteaucunpourn’enoublieraucun;ilshabitentmaintenantun
peupartoutsurlaplanètedansdesmaisonsetmêmedansdescubicles(enparticulierà
Singapour, San Fransisco, Brisbane, Mexico, Montréal, Djibouti, Sao Polo, mais aussi à
Marseille,ausuddeMarseille,àToulouse,AixenProvence,auMans,àChateaurenard,
à Caumont, Orange et en Avignon, évidemment) certain(e)s sont devenus des ami(e)s
etilssereconnaîtront.
Et je n’oublie surtout pas la patience et l’affection de Antoine, Charles et surtout
Marie-Jean,éminentsmembresdematribudegensduvoyagedésormaisdevenuecos-
mopolite!
34Résumé
La Génération Automatique de Texte (GAT) est le champ de recherche de la lin-
guistiqueinformatiquequiétudielapossibilitéd’attribueràunemachinelafacultéde
produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de
systèmedeGATreposantexclusivementsurdesméthodesstatistiques.Sonoriginalité
est d’exploiter un corpus en tant que ressource de formation de phrases. Cette méth-
odeoffreplusieursavantages:ellesimplifiel’implémentationd’unsystèmedeGATen
plusieurslanguesetaméliorelescapacitésd’adaptationsd’unsystèmedegénérationà
undomainesémantiqueparticulier.Laproduction,d’aprèsuncorpusd’apprentissage,
desmodèlesdephrasesfinementétiquetéesrequisesparnotregénérateurdetextenous
aconduitàmenerdesrecherchesapprofondiesdansledomainedel’extractiond’infor-
mationetdelaclassification.Nousdécrivonslesystèmed’étiquetageetdeclassification
decontenusencyclopédiquemisaupointàcettefin.Danslesétapesfinalesduproces-
sus de génération, les modèles de phrases sont exploités par un module de génération
de texte multilingue. Ce module exploite des algorithmes de recherche d’information
pourextrairedumodèleunephrasepré-existante,utilisableentantquesupportséman-
tique et syntaxique de l’intention à communiquer. Plusieurs méthodes sont proposées
pourgénérerunephrase,choisiesenfonctiondelacomplexitéducontenusémantique
à exprimer. Nous présentons notamment parmi ces méthodes une proposition origi-
nale de génération de phrases complexes par agrégation de proto-phrases de type Su-
jet,Verbe,Objet. Nous envisageons dans nos conclusions que cette méthode particulière
de génération puisse ouvrir des voies d’investigations prometteuses sur la nature du
processusdeformationdephrases.
Les travaux de recherche présentés dans ce mémoire ont été menés au Laboratoire Informa-
tique d’Avignon jusqu’en octobre 2009. Ils ont été complétés et mis en application à l’École
Polytechnique de Montréal à partir du 1er décembre 2009, dans le cadre des travaux du projet
Gitan, dirigé par les Professeurs Michel Gagnon et BenoitOzell. L’ensemble de cette thèse à été
menéesousladirectionscientifiqueduDrJuan-ManuelTorres-Moreno(MdCHDR).
Motsclés
Génération Automatique de Texte, Génération de phrases, Apprentissage automa-
tique,Syntaxe,Extractiond’information,Agrégation
56Abstract
MultilingualNaturalLanguageGenerationusingsentencemod-
elslearnedfromcorpora
NaturalLanguageGeneration(NLG)isthenaturallanguageprocessingtaskofgen-
erating natural language from a machine representation system. In this thesis report,
wepresentanarchitectureofNLGsystemrelyingonstatisticalmethods.Theoriginal-
ity of our proposition is its ability to use a corpus as a learning resource for sentences
production. This method offers several advantages : it simplifies the implementation
and design of a multilingual NLG system, capable of sentence production of the same
meaning in several languages. Our method also improves the adaptability of a NLG
system to a particular semantic field. In our proposal, sentence generation is achieved
troughtheuseofsentencemodels,obtainedfromatrainingcorpus.Extractedsentences
areabstractedbyalabellingstepfromvariousinformationextractionandtext
mining methods like named entity recognition, co-reference resolution, semantic la-
belling and part of speech tagging. The sentence generation process is achieved by a
sentence realisation module. This module provide an adapted sentence model to fit a
communicativeintent,andthentransformthismodeltogenerateanewsentence.Two
methods are proposed to transform a sentence model into a generated sentence, ac-
cordingtothesemanticcontenttoexpress.Inthisdocument,wedescribethecomplete
labellingsystemappliedtoencyclopaediccontenttoobtainthesentencemodels.Then
we present two models of sentence generation. The first generation model substitute
the semantic content to an original sentence content. The second model is used to find
numerousproto-sentences,structuredasSubject,Verb,Object,abletofitbypartawhole
communicative intent, and then aggregate all the slected proto-sentences into a more
complex one. Our experiments of sentence generation with various configurations of
oursystemhaveshownthatthisnewapproachofNLGhaveaninterestingpotential.
This research have been mainly conducted in the Computer Laboratory of Avignon Uni-
versity, until October 2009. It was supplemented and applied at the École Polytechnique de
MontrealstartingfromDecember1st,2009,withintheframeworkoftheGitanproject,directed
byProfessorsMichelGagnonandBenoitOzell.Thewholeworkdescribedinthisthesishasbeen
conductedunderthescientificsupervisionofDr.Juan-ManuelTorres-Moreno(MdCHDR).
Keywords
NaturalLanguageGeneration,Sentencegeneration,Statisticallearning,Syntax,In-
formationextraction,Aggregation
78Tabledesmatières
I Théorieetgénération 19
1 StructuresetméthodesdessystèmesdeGénérationAutomatiquedeTexte 21
1.1 Formalisationdel’IntentiondeCommunication . . . . . . . . . . . . . . . . 23
1.2 L’architecturepipelinedessystèmesdegénération . . . . . . . . . . . . . 25
1.3 Composantsstratégiquesdeproductiondephrasedel’architecturepipeline 27
1.3.1 Lesgénérateursàbasedepatrons . . . . . . . . . . . . . . . . . . 27
1.3.2 Lesàcomposantsàbasederèglesdeproduction . . 29
1.3.3 Les à statistiques et apprentissage sur
corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3.4 Représentativitédesdifférentesapproches . . . . . . . . . . . . . 30
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2 Générateursàbasederèglesetdegrammaires 33
2.1 Théorieslinguistiquesimpliquées. . . . . . . . . . . . . . . . . . . . . . . 33
2.1.1 Grammairesgénéra