13
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe et accède à tout notre catalogue !
Découvre YouScribe et accède à tout notre catalogue !
13
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Publié par
Langue
Français
Le rôle du lexique sémantique et de l’ontologie dans le
traitement automatique de la langue médicale
Pierre Zweigenbaum, Bruno Bachimont, Jacques Bouaud, Jean Charlet,
Jean-François Boisvieux
DIAM: SIM/AP-HP & Dépt de Biomathématiques, Université Paris 6
91, boulevard de l’Hôpital F-75634 Paris Cedex 13
f pz, bb, jb, jc, jfb
g @biomath.jussieu.fr
We examine several critical points in moving from medical language to a canonical concep-
tual representation of medical information. These points involve the roles of semantic lexicon
and ontology in medical language processing (MLP). We study on the one hand some avai-
lable resources in terms of lexicon and ontology, and on the other hand some MLP processing
systems, and we identify the strategic choices they make. We conclude that no MLP system
seriously takes into account both semantic and conceptual constraints.
1. Langue naturelle et information médicale
La langue naturelle tient un rôle fondamental dans la pratique et l’enseignement de la
médecine. Dans un contexte où informatisation et codification vont croissant avec l’essor
des systèmes d’information hospitaliers
)
) [1], ce qui pourrait sembler un lieu commun doit
être rappelé de temps à autre (voir par exemple [2, 3]).
Un enjeu du traitement automatique de la langue médicale (TALM) est d’échapper à l’équi-
valence traitement de l’information médicale
, saisie d’information codifiée. Cette équi-
valence mène en effet à une alternative manichéenne entre un traitement de l’information
médicale requérant un codage contraignant, nécessairement réducteur et donc source de
perte d’information, et une expression en langue naturelle, suffisamment riche mais rendant
l’exploitation informatique impossible, et donc considérée comme une non-information. La
cohabitation des deux méthodes, même si elle supprime l’alternative, conserve l’opposition
entre les deux mondes et ne peut être qu’un pis-aller. Le TALM a pour objectif ambitieux
de construire un pont entre langue et information en produisant des informations codées à
partir de textes en langue naturelle.
La langue médicale, en tant que langue spécialisée, relève de la linguistique. Son étude mo-
bilise des dimensions paradigmatiques (lexique) et syntagmatiques (composition syntaxique
et sémantique). En tant que langue spécialisée, la langue médicale reflète la pratique de la
médecine — en particulier, la pratique hospitalière. Elle renvoie à une connaissance : sur
un patient spécifique, sur les actes hospitaliers, sur la physiopathologie humaine, etc. La
modélisation de la connaissance est le champ fondamental de l’intelligence artificielle. Elle
fait appel aux notions de représentation conceptuelle et d’ontologie. Élément et véhicule
d’une pratique, son expression linguistique est une connaissance mise en contexte [4].
(
()
)
Les méthodes du TALM reposent donc sur une modélisation linguistique et conceptuelle,
dans une proportion variable selon les équipes. Les éléments clés de cet équilibre sont :
– les poids respectifs du lexique sémantique et de l’ontologie ;
– les poids respectifs des contraintes liées à la langue et de celles attachées à la repré-
sentation conceptuelle.
Tout concepteur de système est évidemment amené à prendre des raccourcis (à adopter une
attitude d’ingénieur ) sur un certain nombre de points, qui peuvent être justifiés par la tâche
du système, induits par les outils disponibles, ou rendus nécessaires par les contraintes de
ressources et la difficulté des problèmes impliqués. Nous étudions dans ce papier différentes
options stratégiques prises sur ces questions dans la constitution de systèmes de TALM, à
travers l’examen de quelques systèmes représentatifs.
Nous examinons des ressources existantes pouvant être considérées en vue de jouer le rôle
de lexique sémantique ou d’ontologie. Nous passons ensuite en revue un échantillon de
systèmes de TALM sous l’angle du lexique sémantique, de la représentation conceptuelle et
de leurs relations. Nous discutons les choix effectués et soulignons les principaux axes de
recherche à développer.
2. Du lexique sémantique à l’ontologie : quelques candidats
Nous caractérisons tout d’abord les principales notions manipulées. Un lexique sémantique
participe à la modélisation de la langue. Les unités signifiantes de la langue sont décrites
sémantiquement par les oppositions et différences qu’elles entretiennent en corpus (et souvent
1dans l’introspection) avec les autres unités . Cette description donne les régularités qui
conditionnent la manière dont les mots ou unités linguistiques se combinent dans les textes
observés : des contraintes linguistiques régissent le fonctionnement de la langue. Il faut
distinguer le palier de l’analyse syntaxique et celui de l’analyse sémantique (qui dans les
paradigmes formels renvoient à l’opposition entre la forme et le sens).
Une représentation conceptuelle sert à modéliser le monde. Elle repose sur une ontologie
qui recense ses primitives de contenu. Une représentation conceptuelle doit être normalisée,
par opposition à une représentation sémantique qui peut faire l’objet de paraphrases ou être
ambiguë. Un système de représentation des connaissances est un système formel génératif sur
lequel sont définies des opérations, dont la composition (combinaison de représentations) et la
subsomption (relation générique / spécifique entre représentations), et dont le but est de servir
de support à une représentation conceptuelle (normalisée). Dans une telle représentation, la
formulation de requêtes automatiques sur la représentation cible doit être relativement aisée,
les problèmes de synonymie, de paraphrase, d’ambiguïté et de dépendance au contexte étant
résolus. On notera le caractère intermédiaire d’une terminologie, qui considère les termes
comme expressions linguistiques des concepts d’un domaine.
2Nous examinons ici quelques ressources existantes pouvant être considérées en vue de jouer
le rôle de lexique sémantique ou d’ontologie. Certaines de ces ressources (DEC, Wordnet)
sont de nature générale, et dépassent le strict cadre médical ; d’autres (UMLS, SNOMED,
GALEN) ont été explicitement conçues pour le domaine biomédical. Les premières sont
essentiellement linguistiques (DEC, Wordnet) ; les dernières sont conceptuelles (GALEN,
1 Nous adoptons une approche prônant une linguistique structurale, et le paradigme différentiel de François
Rastier [5].
2
: Une revue des systèmes de codage pour la santé pourra par exemple être trouvée dans [1].
:
(
((
)
)
(
(
(
(
(
(
(
)
)
MENELAS). Nous étudions leur positionnement sur les deux points mentionnés en intro-
duction : peuvent-ils jouer le rôle de lexique sémantique ou d’ontologie ; décrivent-ils des
contraintes de nature linguistique ou conceptuelle?
Nous commençons cette énumération par le prototype de ce que pourrait être un lexique
sémantique fondé sur des principes strictement linguistiques, sans recours à aucune notion
conceptuelle ou référentielle.
2.1 Le Dictionnaire Explicatif et Combinatoire
Le Dictionnaire Explicatif et Combinatoire (DEC) [6] est un dictionnaire de la langue
générale. Il est en cours de construction depuis plus de quinze ans, et a pris comme champ
d’expérimentation le français. Bâti sur des principes linguistiques formels [7], son ambition
est de compiler toutes les connaissances permettant d’employer un mot dans une langue
donnée ; il comprend actuellement de l’ordre d’un millier d’entrées (noms, verbes, adjectifs,
adverbes). L’unité de description est un sens de mot, ou lexie , pouvant être un mot simple
ou composé. L’entrée d’une lexie comprend, outre sa définition (en termes de lexies
(
( plus
simples
)
) ), des informations sur ses propriétés combinatoires syntaxiques et sémantiques :
actants syntaxiques et sémantiques (pour les lexies prédicatives comme les verbes, les
adjectifs et la plupart des noms), et surtout une description riche de sa combinatoire
lexicale restreinte . Ce dernier pan de l’entrée lexicale constitue l’un des aspects les plus
originaux du DEC, et indique quelles autres lexies jouent un rôle privilégié par rapport à
la lexie définie. 56 fonctions lexicales fournissent ainsi autant de relations sémantiques
entre lexies : par exemple, synonyme, conversif, antonyme, collectif, int