251
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
251
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
Publié par
Langue
Français
Institut
des
X
National
augam-Moisy
P
T
olytec
W
hnique
con
de
I
Grenoble
M.
Nattribué
Benoît
par
,
la
représen
bibliothèque
tégration
(Examinateur)
M
ence
de
v
M
Pro
es
de
t,
ersité
Compiègne
Univ
ersité
Denhière,
me
Guy
G
M.
our
(Examinateur)
du
e
par
P
relations
our
JUR
obtenir
Hélène
le
Univ
grade
on
de
de
Genèv
Sabine
de
Sciences
ersité
de
Univ
Bac
Sp
ersité
écialité
hnologie
:
orteur)
Sciences
ert,
Cognitiv
P
es
orteur)
préparée
Garba
au
oratoire
lab
M.
oratoire
p
Institut
la
des
tation
Sciences
sens
Cognitiv
ehrli,
es
in
dans
des
le
de
cadre
texte
de
Y
l'École
me
Do
P
ctorale
,
Ingénierie
ersité
p
Ly
our
I
la
(Directeur
San
thèse)
té,
me
la
Ploux,
Cognition,
des
l'En
Cognitiv
vironnemen
(Directeur
t
thèse)
Présen
Bruno
tée
himon
et
Univ
souten
de
ue
ec
publiquemen
de
t
(Rapp
par
M.
Hyungsuk
Hab
JI
Univ
le
de
16
aris
no
(Rapp
v
M
em
Catherine
bre
y
2004
Lab
Étude
TIMC-IMA
d'un
(Examinateur)
mo
Eric
dèle
mots
computationnel
Institut
j j j j j j j j j j j
Thèse
Docteur de L’INPG
tel-00008384, version 1 - 7 Feb 2005tel-00008384, version 1 - 7 Feb 2005Résumé
Dans cette thèse nous présentons une approche théorique du concept et un
modèle linguistico informatique. Cette théorie, non définitionnelle, est fondée sur
une représentation gaussienne du concept. Nous introduisons le terme « contexo
nyme », une formalisation de la relation de contexte entre les mots. Cette notion
lie la théorie du concept au modèle informatique. Basé sur ces deux notions, notre
modèle informatique apprend des contexonymes de manière automatique à partir
de corpus de taille importante non annotés. Pour chaque mot donné, le modèle
propose la liste de ses contexonymes et les organise par une méthode de classifi
cation hiérarchique. Les contexonymes ainsi obtenus reflètent des connaissances
encyclopédiques ainsi que diverses caractéristiques langagières comme l’usage
des mots ou encore les fines différences sémantiques entre synonymes. Les résul
tats sur des tests montrent que le modèle peut être utilisé pour des tâches de TAL
ainsi que comme ressource lexicale dynamique.
Mots clefs : contexonyme, concept, traitement automatique des langues (TAL),
corpus, contexte, représentation sémantique, mot lié contextuellement, apprentis
sage automatique.
tel-00008384, version 1 - 7 Feb 2005ii
tel-00008384, version 1 - 7 Feb 2005Abstract
In this thesis, we present a theory of concepts and a related computational
linguistic model. This non definitinal theory proposes a view that considers con
cepts as a Gaussian representation. The term contexonym, formalized version for
‘contextually related words’, is introduced that relates this theory of concepts and
computational model. Based on these two principles, our computational model
learns automatically contexonyms from a very large untagged corpus. For a given
word, the model proposes a set of its contexonyms and organizes them by a hier-
archical clustering method. The contexonyms thus obtained reflect encyclopedic
knowledge in addition to various linguistic features like word usage or subtle dif
ference between near synonyms. The results on different tests show that the model
could be used for natural language processing (NLP) tasks as well as a dynamic
lexical reference.
Keywords: contexonym, concepts, natural language processing (NLP), cor-
pus, context, semantic representation, contextually related words, machine learn
ing.
tel-00008384, version 1 - 7 Feb 2005iv
tel-00008384, version 1 - 7 Feb 2005Remerciements
meJe remercie tout d’abord M Sabine Ploux de m’avoir accueilli dans son
équipe, d’avoir dirigé ma thèse et de m’avoir accordé une grande autonomie pen
dant ces dernières années.
meJe tiens à remercier également ma directrice de thèse, M Hélène Paugam
Moisy qui m’a soutenu et qui m’a aidé à organiser mon travail lors de ma thèse.
Je suis très reconnaissant à M. Eric Wehrli qui m’a accueilli dans son labora
toire LATL à Genève.
Je voudrais remercier les membres de mon jury pour l’intérêt qu’ils ont témoi
gné à mon travail, particulièrement M. Benoît Habert et M. Bruno Bachimont qui
m’ont donné des commentaires précieux.
meUn grand merci à M Anne Reboul de m’avoir soutenu et de m’avoir encou
ragé.
Merci à mes amis au laboratoire et ailleurs qui m’ont encouragé et aidé pour
finir ma thèse : Jean Marc Blanc, Christelle Dodane, Flavie Martin, Emanuelle
Reynaud, David Meunier, Bernard Jacquemin, Olivier Castéra, Valérie Buron,
Chanwoong Lee et Sohyun Ahn, parmi les autres.
Enfin, mes remerciements profonds s’adressent à mes parents et mon épouse
Eunkyoung pour leur soutien inconditionnel et leur encouragement toujours cha
leureux.
tel-00008384, version 1 - 7 Feb 2005vi
tel-00008384, version 1 - 7 Feb 2005Table des matières
1 Introduction 1
2 Concept et sens 5
2.1 Etendue du concept . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Entité mentale contre entité abstraite . . . . . . . . . . . . 10
2.2 Sens et référence . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Les noms propres et leurs sens . . . . . . . . . . . . . . . 13
2.2.2 Contenu du concept . . . . . . . . . . . . . . . . . . . . . 16
2.3 Théorie du concept . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Théories diverses . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Théorie proposée . . . . . . . . . . . . . . . . . . . . . . 31
3 Sens et contexonyme 45
3.1 Langage formel et langue . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Une critique relative aux propositions de Pustejovsky et Jackendoff 51
3.2.1 Le problème renversé . . . . . . . . . . . . . . . . . . . . 56
3.3 Polysémie contre homonymie . . . . . . . . . . . . . . . . . . . . 58
3.4 Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.1 Lien contextuel . . . . . . . . . . . . . . . . . . . . . . . 62
3.4.2 Contexonyme . . . . . . . . . . . . . . . . . . . . . . . . 66
tel-00008384, version 1 - 7 Feb 2005viii TABLE DES MATIÈRES
4 Les modèles informatiques 69
4.1 Référence lexicale . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2 Les modèles d’organisation du sens des mots . . . . . . . . . . . 74
4.2.1 Le modèle de Ploux . . . . . . . . . . . . . . . . . . . . 76
4.3 Les modèles utilisables dans une tâche de TAL . . . . . . . . . . 77
4.4 Les modèles capables d’apprendre . . . . . . . . . . . . . . . . . 82
4.5 Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5 Modèle automatique d’organisation des contexonymes (ACOM) 91
5.1 Procédure d’organisation du contexonyme . . . . . . . . . . . . . 93
5.2 Caractéristique du modèle . . . . . . . . . . . . . . . . . . . . . 101
6 Test sur des exemples 105
6.1 Test sur des mots choisis de manière aléatoire . . . . . . . . . . . 105
6.2 Test sur les exemples d’Edmonds et Hirst . . . . . . . . . . . . . 107
6.3 Test sur les exemples de Dagan et Itai . . . . . . . . . . . . . . . 110
6.4 Test avec la méthode de fusion . . . . . . . . . . . . . . . . . . . 110
6.5 Test sur les exemples de Hirsh et Tree . . . . . . . . . . . . . . . 116
6.6 Test sur deux corpus différents . . . . . . . . . . . . . . . . . . . 117
7 Discussion et conclusion 121
7.1 Une étude pluridisciplinaire . . . . . . . . . . . . . . . . . . . . . 121
7.2 Modèlisation du concept . . . . . . . . . . . . . . . . . . . . . . 124
7.3 Modèle sémantique . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.4 Modèle informatique . . . . . . . . . . . . . . . . . . . . . . . . 136
7.5 Conclusion et perspective . . . . . . . . . . . . . . . . . . . . . . 139
A Résultats du test sur des mots choisis de manière aléatoire 143
tel-00008384, version 1 - 7 Feb 2005