Reconnaissance d'implications textuelles à forte composante linguistique, Linguistic-Based Computational Treatment of Textual Entailment Recognition

279

pages

English

Documents

Écrit par
Marilisa Amoia

Publié par
Thesee

Lire un extrait

Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus

Découvre YouScribe et accède à tout notre catalogue !

Je m'inscris

Découvre YouScribe et accède à tout notre catalogue !

Je m'inscris

279

pages

English

Documents

Lire un extrait

Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus

Publié par

Thesee

Langue

English

Sous la direction de Claire Gardent, Manfred Pinkal
Thèse soutenue le 07 novembre 2008: Universität des Saarlandes, Nancy 1
Dans cette thèse, j'étudie la manière dont les ressources lexicales basées sur l'organisation de la connaissance lexicale dans des classes qui partagent des propriétés communes (syntactiques, sémantiques, etc.) permettent le traitement automatique de la langue naturelle et en particulier la reconnaissance symbolique d'implications textuelles. Tout d'abord, je présente une approche robuste et à large couverture sur la reconnaissance de paraphrases verbales lexico-structurelle basée sur la classification de verbes anglais par Levin (1993). Puis, je montre qu'en étendant le cadre proposé par Levin pour traiter les modèles d'inférence généraux, on obtient une classification d'adjectifs anglais qui, comparée à des approches antérieures, propose une caractérisation sémantique à grain plus fin de leurs propriétés déductives. De plus, je développe un cadre sémantique compositionnel pour assigner à des adjectifs une représentation sémantique sur la base d'une approche ontologiquement variée (Hobbs, 1985) et qui permet ainsi l'inférence de premier ordre pour tous les types d'adjectifs, y compris les adjectifs extensionnels. Enfin, je présente un corpus de test pour l'inférence basée sur les adjectifs que j'ai développée comme ressource pour l'évaluation de systèmes de traitement automatique de l'inférence de la langue naturelle.
-linguistique informatique traitement informatique du langage naturel semantique lexicale verbe adjectif
In this thesis, I investigate how lexical resources based on the organisation of lexical knowledge in classes which share common (syntactic, semantic, etc. features support natural language processing and in particular symbolic recognition of textual entailment. First, I present a robust and wide coverage approach to lexico-structural verb paraphrase recognition based on Levin's (1993) classification of English verbs. Then, I show that by extending Levin's framework to general inference patterns, a classification of English adjectives can be obtained that compared with previous approaches, provides a more fine grained semantic characterisation of their inferential properties. Further, I develop a compositional semantic framework to assign a semantic representation to adjectives based on an ontologically promiscuous approach (Hobbs, 1985) and thereby supporting first order inference for all types of adjectives including extensional ones. Finally, I present a test suite for adjectival inference I developed as a resource for the evaluation of computational systems handling natural language inference.
Source: http://www.theses.fr/2008NAN10099/document

Voir

Publié par

Thesee

Langue

English

AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.

Toute contrefaçon, plagiat, reproduction illicite encourt une
poursuite pénale.

➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

LIENS

Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm Departement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR STMIA
Reconnaissance d’implications textuelles a
forte composante linguistique
Linguistic-Based Computational Treatment of
Textual Entailment Recognition
These
presentee et soutenue publiquement le 7 novembre 2008 a Sarrebruck
pour l’obtention du
Doctorat de l’universite Henri Poincare { Nancy 1
(specialite informatique)
et du
Doktor der Philosophie der Philosophischen Fakultaten der
Universitat des Saarlandes
par
Marilisa Amoia
Cette these a ete preparee dans le cadre d’une cotutelle de these entre l’universite Henri Poincare et
l’universite de la Sarre.
Composition du jury
President : E. Steiner Professeur, Universite de la Sarre
Rapporteur : B. Webber Universite d’Edinburgh
P. Saint-Dizier Directeur de recherches CNRS, IRIT Toulouse
Examinateur : C. Gardent Directrice de recherches CNRS, LORIA Nancy
J.-M. Pierrel Professeur, Universite Henri Poincare
M. Pinkal Universite de la Sarre
Invite : M. Crocker Professeur, Universite de la Sarre
S. Thater Dr., Universite de la Sarre
Laboratoire Lorrain de Recherche en Informatique et ses Applications | UMR 7503Mis en page avec la classe thloria.Abstract
In this thesis, I investigate how lexical resources based on the organisation of lexical
knowledge in classes which share common (syntactic, semantic, etc.) features support
natural language processing and in particular symbolic recognition of textual entailment.
First, I present a robust and wide coverage approach to lexico-structural verb paraphrase
recognition based on Levin’s (1993) classiﬁcation of English verbs. Then, I show that
by extending Levin’s framework to general inference patterns, a classiﬁcation of English
adjectives can be obtained that compared with previous approaches, provides a more
ﬁne grained semantic characterisation of their inferential properties. Further, I develop
a compositional semantic framework to assign a semantic representation to adjectives
based on an ontologically promiscuous approach (Hobbs, 1985) and thereby supporting
ﬁrst order inference for all types of adjectives including extensional ones. Finally, I
present a test suite for adjectival inference I developed as a resource for the evaluation
of computational systems handling natural language inference.
Résumé
Dans cette thèse, j’étudie la manière dont les ressources lexicales basées sur l’organisa-
tion de la connaissance lexicale dans des classes qui partagent des propriétés communes
(syntactiques, sémantiques, etc.) permettent le traitement automatique de la langue na-
turelle et en particulier la reconnaissance symbolique d’implications textuelles.
Tout d’abord, je présente une approche robuste et à large couverture sur la reconnais-
sance de paraphrases verbales lexico-structurelle basée sur la classiﬁcation de verbes
anglais par Levin (1993). Puis, je montre qu’en étendant le cadre proposé par Levin
pour traiter les modèles d’inférence généraux, on obtient une d’adjectifs
anglais qui, comparée à des approches antérieures, propose une caractérisation séman-
tique à grain plus ﬁn de leurs propriétés déductives. De plus, je développe un cadre
sémantique compositionnel pour assigner à des adjectifs une représentation sémantique
sur la base d’une approche ontologiquement variée (Hobbs, 1985) et qui permet ainsi
l’inférence de premier ordre pour tous les types d’adjectifs, y compris les adjectifs ex-
tensionnels. Enﬁn, je présente un corpus de test pour l’inférence basée sur les adjectifs
que j’ai développée comme ressource pour l’évaluation de systèmes de traitement au-
tomatique de l’inférence de la langue naturelle.Acknowledgments
First of all, I would like to thank my supervisors Claire Gardent and Manfred Pinkal
without whom this thesis would not have been possible. They gave me the opportunity
to work within an international very stimulating environment. The research work of this
thesis in fact has taken place within the cotutelle program between the University of
Nancy and the University of Saarland.
I warmly thank Claire Gardent for her guidance, patience and invaluable support
throughout this thesis. I have beneﬁted from many interesting discussions and from her
comments on earlier drafts.
I would like to express my thanks to Manfred Pinkal whose enthusiasm for compu-
tational linguistics inﬂuenced my views and who gave me the possibility to teach at the
University of Saarland which was a great experience for me.
I also thank Petra Dünges for her encouragement in the last months of writing and
Stefan Gremm for his helpful collaboration with the test suite.
Finally, I thank my family and all the friends who supported me during these years
and especially Massimo, Marco and Dario who gave me their loving support and under-
standing which helped me writing this thesis.
iiiivTable of Contents
Ausführliche Zusammenfassung 1
Résumé détaillé 11
1 Introduction 21
Part I Verb Paraphrases
2 Paraphrases: Theoretical Background 29
2.1 Paraphrases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Textual Equivalence Based on Domain-Independent Lexical and Struc-
tural Knowledge . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Lexical Paraphrases . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Structural P . . . . . . . . . . . . . . . . . . . . 34
2.2.3 Combination of Different Paraphrastic Means . . . . . . . . 37
2.3 Linguistic Work on Paraphrasing . . . . . . . . . . . . . . . . . . . 38
2.3.1 Transformational Grammar . . . . . . . . . . . . . . . . . 38
2.3.2 Meaning-Text Theory . . . . . . . . . . . . . . . . . . . . 40
2.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Linguistic Resources for Verb Paraphrasing 51
3.1 Levin’s Verb Classes . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Alternations as Semantic Tests . . . . . . . . . . . . . . . . 52
3.1.2 Example of Levin’s Verb Classes . . . . . . . . . . . . . . 55
3.2 Verbnet: Extending Levin’s Verb Classes . . . . . . . . . . . . . . 57
3.3 Extracting Verb Paraphrastic Patterns from VerbNet . . . . . . . . . 61
3.4 Extending Verb P Patterns with WordNet . . . . . . . . 62
3.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
vTable of Contents
4 Computational Treatment of Verb Paraphrases: a Linguistic-Based Ap-
proach 69
4.1 XIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Incorporating VerbNet into XIP . . . . . . . . . . . . . . . . . . . 75
4.2.1 The Verb Lexicon . . . . . . . . . . . . . . . . . . . . . . 75
4.2.2 Extracting Argument Structures for English Verbs from Verb-
Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.3 Semantic Construction . . . . . . . . . . . . . . . . . . . . 78
4.2.4 Postprocessing . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3 A More Detailed Example . . . . . . . . . . . . . . . . . . . . . . 83
4.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5 Related Work 89
5.1 Statistical Approaches . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2 Symbolic . . . . . . . . . . . . . . . . . . . . . . . . 93
5.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Part II Adjective-Based Entailment
6 Adjectives: Linguistic Background 101
6.1 Adjective Typology . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.2 Syntactic Analysis of Adjectives . . . . . . . . . . . . . . . . . . . 103
6.2.1 Huddleston Approach . . . . . . . . . . . . . . . . . . . . 103
6.2.2 Quirk Approach . . . . . . . . . . . . . . . . . . . . . . . 104
6.2.3 Vendler’s Classiﬁcation . . . . . . . . . . . . . . . . . . . 105
6.3 Semantic Analysis of Adjectives . . . . . . . . . . . . . . . . . . . 107
6.3.1 Quirk Approach . . . . . . . . . . . . . . . . . . . . . . . 107
6.3.2 Keenan . . . . . . . . . . . . . . . . . . . . . . 109
6.3.3 Chierchia Approach . . . . . . . . . . . . . . . . . . . . . 110
6.3.4 Kamp and Partee Approach . . . . . . . . . . . . . . . . . 111
6.4 Taxonomies of Adjecti

Voir