10
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
10
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
Publié par
Langue
Français
Violaine Prince 19/01/05
Introduction
Les outils
Cours sur le traitement Analyseurs
automatique des langues Bases de connaissance
Les applications
Violaine Prince Ingénierie linguistique
Université de Montpellier 2 Aux autres domaines de
LIRMM-CNRS l ’informatique
Aide à la recherche linguistique
Application aux autresIngénierie domaines delinguistique : l’ informatique
Aide à la traduction automatique Moteurs de recherche
d ’information Correcteurs grammaticaux et
orthographiques Interrogation de bases de données
Dictionnaires Tuteurs intelligents
Alignement de corpus multilingues Informatique documentaire
Résumés automatiques Reconnaissance de la parole
continue
Cours sur le traitement automatique des
langues 1
Violaine Prince 19/01/05
Aide à la recherche
linguistique Thématiques et
domaines
Recherche de fréquences Les différents types de « TAL »
Informatique linguistique Aide à l ’analyse de textes
Algorithmique et info théorique Typage de données textuelles
Intelligence Artificielle
Systèmes à base d ’agents
Linguistique informatique
Statistiques
Logique
Analyse
Éléments traités automatique
Analyse automatique Dimensions d ’analyse
Modèles et outils Morphologique
Terminologie Syntaxique
Sémantique Présentation des options
Pragmatique
Cours sur le traitement automatique des
langues 2Violaine Prince 19/01/05
Analyse Exemplemorphologique
Objectif : Ajouter du texte
Reconnaissance de mots dans un
Reconnaissance de la frontière des unitéstexte
lexicales (ul)
de la ponctuation
Reconnaissance de l ’ul
AJOUTER Affectation d ’une catégorie comme « motif» présent dans
grammaticale au mot un thésaurus : catégorie
« verbe» , forme « infinitif » S ’appelle LEMMATISATION ou
ETIQUETAGE Lettre majuscule A : reconnaissance du
début du texte
La multiplicité desQuelques difficultés signes
J ’ajoute du texte Les signes spéciaux :
Qui interviennent dans une unité
lexicale :
Reconnaître une forme de « je» pronom
- , exemple : porte-manteaupersonnel
‘ , exemple : aujourd’hui
qui marquent la contraction :Reconnaître une forme du motif « ajouter»
ou le reconnaître comme motif : catégorie ‘ , exemple : j ’arrive
« verbe» , forme « première personne du
Qui marquent un début ou une fin
singulier» . d ’unité composée :
« », ( ), majuscule et point, — —.
Cours sur le traitement automatique des
langues 3
Violaine Prince 19/01/05
L’ambiguï té Les signes de ponctuation :
, : ;
Les signes d ’énumération : Des signes :
1) nombre suivi d ’une parenthèse l ’apostrophe, le tiret, la parenthèse
fermante fermante
—, -,*
Des catégories affectables à une
Le symbole du dialogue ul :
_ une texture ferme adjectif
Les signes d ’annotation (*), (1) je ferme la porte verbe
nom la ferme de Jean Les signes arithmétiques et les
nombres inclus dans un texte
Le côté « multiplicatif»
de l’ ambiguïté de
De la majuscule : début de texte catégorie
ou emphase
Je ferme la porte ambiguïté de forme précise
je ferme la porte
ferme VERBE
• catégorie : VERBE
PRONOM
• forme : 1ere personne du singulier
(FORME FLECHIE) NOM ARTICLE
ADJECTIF
Il ferme la porte
ferme
• catégorie : VERBE
• forme : 3ème personne du singulier
Cours sur le traitement automatique des
langues 4
Violaine Prince 19/01/05
La combinatoire Les différentes
théorique techniques
pronom verbe pronom verbe d’analyse
verbe article verbe morphologique
pronom verbe pronom nom
verbe article nom Soit une ul U dans un texte T
pronom nom pronom verbe
Etiquetage
nom article verbe
affectation d ’une catégorie
pronom nom pronom nomLA BONNE grammaticale et/ou d ’une forme à
nom article nomCOMBINAISON U
pronom adjectif pronom verbe
Lemmatisation
etc. soit 12 combinaisons alors qu ’il n ’y en
étiquetage et reconnaissance de Ua qu ’une seule de bonne...
comme élément de dictionnaire
Etiquetage tri-gramme
Exemples (« U »,C , F )
U U
où F est la forme prise par U Je ferme la porte
(forme fléchie)
Etiquetage :
Lemmatisation avec étiquetage tri-
(« je », pronom personnel ),
gramme(« ferme », verbe),(« la »
article),(« porte »,nom) (« U »,C , F , LEXEME)U U
étiquetage en bi-grammes
Un lexème est une unité lexicale
• (« U »,C )U signifiante.
Lemmatisation
Exemples : FERMER, JE, LA,
Etiquetage plus
PORTE, PORTER...
(« ferme », verbe : FERMER)
• (« U »,C , LEXEME)U
Cours sur le traitement automatique des
langues 5Violaine Prince 19/01/05
Quelques éléments
de terminologie Exemples
Entrée lexicale : Il existe trois entrées lexicales pour
Unité lexicale qui sert d’entrée du l ’ul « ferme »
dictionnaire. Elle est généralement • (« ferme », FERMER,verbe,{ 1ère
personne du singulier, 3èmereprésentée par :
personne du singulier})• la chaîne de caractères Χ qui la
• (« ferme », FERME, nom commun,définit
féminin singulier)
• le lexème L auquel elle est associée
• (« ferme »,FERME, adjectif
• la catégorie grammaticale associée qualificatif, {masculin singulier,
• la ou les forme(s) fléchie(s) du lexème féminin singulier})
catégorisé prise par la chaîne de
Remarque : les lexèmes peuventcaractères.
(Χ, L, C, {F }) être ambigus.Χ
Dictionnaires sémantiques de
Les dictionnaires formes fléchies:
on ajoute le sens du mot pour
augmenter la discrimination
Dictionnaires de lexèmes
• (« ferme », FERMER,verbe,{ 1ère
uniquement : thesaurii personne du singulier, 3ème
personne du singulier}, *FERMER)lexicographiques
– ici, on met un pointeur sur la
FERMER : verbe forme infinitive fermer, qui va elle,
FERME-1 : nom commun porter le ou les sens.
• (« ferme », FERME-1, nom commun, FERME-2 ; adjectif qualificatif
féminin singulier, bâtiment agricole)
Dictionnaires de formes fléchies : • (« ferme », FERME-1b, nom
commun,féminin singulier, poutre detoutes les entrées lexicales de type
toit)(Χ, L, C, {F })
Χ • etc.
Cours sur le traitement automatique des
langues 6Violaine Prince 19/01/05
Comment réaliser la Qualité de la
lemmatisation lemmatisation
Pour chaque ul U d ’un texte T La qualité de la lemmatisation est
l ’adéquation réelle entre ce que Si on a un dictionnaire de forme
doit valoir U dans le texte T et lafléchies de type ( , L, C, {F })
Χ
sous-liste (L, C, {F })alors Χ
sélectionnée. apparier U et Χ
A priori, plus il existe de listes Récupérer toutes les sous-listes
différentes avec la même tête de(L, C, {F }) correspondantes.Χ
liste, plus la qualité de la
lemmatisation est mauvaise. Il faut
donc désambiguiser.
DésambiguisationTechiques de par l’analysedésambiguisation syntaxique
Par l ’analyse syntaxique Tous types d ’analyse depuis
l ’adjonction de quelques règles de
Par apprentissage sur un corpus
syntaxe jusqu ’à l ’analyse
On reste dans l ’hypothèse d ’un complète.
dictionnaire de formes fléchies
Présentation de règles
d ’interdictionJe ferme la porte
• un article ne peut pas être suivi d’un
verbe
– pronom verbe article verbe
à supprimer – pronom nom article verbe
–adjectif article verbe
Cours sur le traitement automatique des
langues 7
ΧViolaine Prince 19/01/05
Règles de composition autorisées Utilisation des
(et ce qui n ’est pas autorisé est Grammairesinterdit)
• Pronom verbe
à garder
• Article nom (0)proposition -> groupe sujet
• Article adjectif groupe verbal
– pronom verbe pronom verbe
(1)groupe sujet -> groupe nominal
– pronom verbe article verbe
(2)groupe nominal -> pronom– pronom verbe pronom nom
à supprimer – pronom verbe article nom (3)groupe nominal -> article nom
– pronom nom pronom verbe
(4)groupe verbal -> verbe
– pronom nom article verbe
(5)groupe verbal -> verbe groupe– pronom nom pronom nom
nominal– pronom nom article nom
– pronom adject