Contribution à l'analyse et à la recherche d'information en texte intégral : application de la transformée en ondelettes pour la recherche et l'analyse de textes, Contribution in analysis and information retrieval in text : application of wavelets transforms in information retrieval

icon

160

pages

icon

Français

icon

Documents

Écrit par

Publié par

Lire un extrait
Lire un extrait

Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
icon

160

pages

icon

Français

icon

Documents

Lire un extrait
Lire un extrait

Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus

Sous la direction de Serge Cacaly
Thèse soutenue le 27 janvier 2009: Paris Est
L’objet des systèmes de recherche d’informations est de faciliter l’accès à un ensemble de documents, afin de permettre à l’utilisateur de retrouver ceux qui sont pertinents, c'est-à-dire ceux dont le contenu correspond le mieux à son besoin en information. La qualité des résultats de la recherche se mesure en comparant les réponses du système avec les réponses idéales que l'utilisateur espère recevoir. Plus les réponses du système correspondent à celles que l'utilisateur espère, plus le système est jugé performant. Les premiers systèmes permettaient d’effectuer des recherches booléennes, c’est à dire, des recherches ou seule la présence ou l’absence d’un terme de la requête dans un texte permet de le sélectionner. Il a fallu attendre la fin des années 60, pour que l’on applique le modèle vectoriel aux problématiques de la recherche d’information. Dans ces deux modèles, seule la présence, l’absence, ou la fréquence des mots dans le texte est porteuse d’information. D’autres systèmes de recherche d’information adoptent cette approche dans la modélisation des données textuelles et dans le calcul de la similarité entre documents ou par rapport à une requête. SMART (System for the Mechanical Analysis and Retrieval of Text) [4] est l’un des premiers systèmes de recherche à avoir adopté cette approche. Plusieurs améliorations des systèmes de recherche d’information utilisent les relations sémantiques qui existent entre les termes dans un document. LSI (Latent Semantic Indexing) [5], par exemple réalise ceci à travers des méthodes d’analyse qui mesurent la cooccurrence entre deux termes dans un même contexte, tandis que Hearst et Morris [6] utilisent des thésaurus en ligne pour créer des liens sémantiques entre les termes dans un processus de chaines lexicales. Dans ces travaux nous développons un nouveau système de recherche qui permet de représenter les données textuelles par des signaux. Cette nouvelle forme de représentation nous permettra par la suite d’appliquer de nombreux outils mathématiques de la théorie du signal, tel que les Transformées en ondelettes et jusqu’a aujourd’hui inconnue dans le domaine de la recherche d’information textuelle
-Systèmes de Recherche d’Information
-Transformées en ondelettes
-Analyse documentaire
-Modélisation de l’information
-Analyse multi résolution
-Recherche de l'information
-Ondelettes
-Systèmes d'information
-Informatique documentaire
The object of information retrieval systems is to make easy the access to documents and to allow a user to find those that are appropriate. The quality of the results of research is measured by comparing the answers of the system with the ideal answers that the user hopes to find. The system is competitive when its answers correspond to those that the user hopes. The first retrieval systems performing Boolean researches, in other words, researches in which only the presence or the absence of a term of a request in a text allow choosing it. It was necessary to wait for the end of the sixties to apply the vector model in information retrieval. In these two models, alone presence, absence, or frequency of words in the text is holder of information. Several Information Retrieval Systems adopt a flat approach in the modeling of data and in the counting of similarity between documents or in comparison with a request. We call this approach ‘bag of words ’. These systems consider only presence, absence or frequency of appearance of terms in a document for the counting of its pertinence, while Hearst and Morris [6] uses online thesaurus to create semantic links between terms in a process of lexical chains. In this thesis we develop a new retrieval system which allows representing textual data by signals. This new form of presentation will allow us, later, to apply numerous mathematical tools from the theory of the signal such as Wavelets Transforms, well-unknown nowadays in the field of the textual information retrieval
-Information Retrieval Systems
-Information modeling
-Documentary analysis
-Multi resolution Analysis
-Wavelets Transforms
Source: http://www.theses.fr/2009PEST1016/document
Voir icon arrow

Publié par

Nombre de lectures

39

Langue

Français

Poids de l'ouvrage

5 Mo



THÈSE
pour obtenir le grade de
Docteur de l’Université Paris-Est
Spécialité :
Information Scientifique et Technique
présentée et soutenue publiquement par
Nabila SMAIL
le 27 Janvier 2009

Titre : Contribution à l’analyse et à la recherche d’information en
texte intégral.
Application de la Transformée en Ondelettes pour la
recherche et l’analyse de textes.

Jury :
Monsieur le Professeur S. CACALY, Directeur de thèse
Monsieur le Professeur J.KISTER, Rapporteur,
Monsieur le Professeur H. DOU, Rapporteur
Monsieur le Professeur L. QUONIAM, Examinateur
Monsieur le Professeur R. EPPSTEIN, Examinateur
Monsieur le Professeur C. LONGEVIALLE, Examinateur
tel-00504368, version 1 - 20 Jul 2010









À MON PÈRE,

2

tel-00504368, version 1 - 20 Jul 2010
REMERCIEMENTS


Je tiens à remercier M. Serge CACALY d’avoir accepté de diriger mes travaux de recherche.
Je tiens à exprimer ma reconnaissance à M. Renaud Eppstein, pour avoir Co-encadré mes
travaux. Je le remercie pour sa disponibilité, son écoute et ses conseils, qui m’ont été toujours
précieux, sa confiance, son investissement scientifique et humain qui ont été essentiels à la
réalisation de ce travail.

Je voudrais également exprimer toute ma gratitude aux professeurs L. KISTER et H.DOU qui, en
leur qualité de rapporteurs, m’ont fait l’honneur d’examiner minutieusement ce travail.

Je remercie J.QUONIAM et C.LONGEVIALLE, je leur en suis reconnaissante et les remercie
d’avoir accepté de faire partie du jury de ma thèse.

Je tiens aussi à remercier pour son accueil toute l’équipe du laboratoire Sciences et Ingénierie de
l'Information et de l'Intelligence Stratégique (S3IS) de l’Université Paris-Est où j’ai effectué cette
thèse.

Je remercie également Christian LONGEVIALLE et Christel PORTE de l’équipe CESD localisé
à l’IUT de champs sur Marne pour leur accueil, leur encouragement et leur aide professionnel et
personnel.

Je remercie tous les membres du département Services et Réseaux de Communication de l’IUT
de Champs sur Marne en particulier : Martine THIREAU, Agnès GILLET, Nicolas CLASSEAU,
ainsi que tous le corps enseignants.

Enfin, je remercie toute ma famille et tout particulièrement ma mère, de m’avoir soutenue et
encouragée, ma sœur Linda pour son aide dans les moments difficiles.


3

tel-00504368, version 1 - 20 Jul 2010
RESUME

L’objet des systèmes de recherche d’informations est de faciliter l’accès à un ensemble de
documents, afin de permettre à l’utilisateur de retrouver ceux qui sont pertinents, c'est-à-dire ceux
dont le contenu correspond le mieux à son besoin en information. La qualité des résultats de la
recherche se mesure en comparant les réponses du système avec les réponses idéales que
l'utilisateur espère recevoir. Plus les réponses du système correspondent à celles que l'utilisateur
espère, plus le système est jugé performant.
Les premiers systèmes permettaient d’effectuer des recherches booléennes, c’est à dire, des
recherches ou seule la présence ou l’absence d’un terme de la requête dans un texte permet de le
sélectionner. Il a fallu attendre la fin des années 60, pour que l’on applique le modèle vectoriel
aux problématiques de la recherche d’information. Dans ces deux modèles, seule la présence,
l’absence, ou la fréquence des mots dans le texte est porteuse d’information.

D’autres systèmes de recherche d’information adoptent cette approche dans la modélisation des
données textuelles et dans le calcul de la similarité entre documents ou par rapport à une requête.
SMART (System for the Mechanical Analysis and Retrieval of Text) [4] est l’un des premiers
systèmes de recherche à avoir adopté cette approche. Plusieurs améliorations des systèmes de
recherche d’information utilisent les relations sémantiques qui existent entre les termes dans un
document. LSI (Latent Semantic Indexing) [5], par exemple réalise ceci à travers des méthodes
d’analyse qui mesurent la cooccurrence entre deux termes dans un même contexte, tandis que
Hearst et Morris [6] utilisent des thésaurus en ligne pour créer des liens sémantiques entre les
termes dans un processus de chaines lexicales.

Dans ces travaux nous développons un nouveau système de recherche qui permet de représenter
les données textuelles par des signaux. Cette nouvelle forme de représentation nous permettra par
la suite d’appliquer de nombreux outils mathématiques de la théorie du signal, tel que les
Transformées en ondelettes et jusqu’a aujourd’hui inconnue dans le domaine de la recherche
d’information textuelle.

4

tel-00504368, version 1 - 20 Jul 2010
MOTS CLES

Systèmes de Recherche d’Information, Transformées en ondelettes, Analyse multi résolution,
Modélisation de l’information, Analyse documentaire.

5

tel-00504368, version 1 - 20 Jul 2010
ABSTRACT

The object of information retrieval systems is to make easy the access to documents and to allow
a user to find those that are appropriate. The quality of the results of research is measured by
comparing the answers of the system with the ideal answers that the user hopes to find. The
system is competitive when its answers correspond to those that the user hopes.
The first retrieval systems performing Boolean researches, in other words, researches in which
only the presence or the absence of a term of a request in a text allow choosing it. It was
necessary to wait for the end of the sixties to apply the vector model in information retrieval. In
these two models, alone presence, absence, or frequency of words in the text is holder of
information.
Several Information Retrieval Systems adopt a flat approach in the modeling of data and in the
counting of similarity between documents or in comparison with a request. We call this approach
‘bag of words ’. These systems consider only presence, absence or frequency of appearance of
terms in a document for the counting of its pertinence, while Hearst and Morris [6] uses online
thesaurus to create semantic links between terms in a process of lexical chains.
In this thesis we develop a new retrieval system which allows representing textual data by
signals. This new form of presentation will allow us, later, to apply numerous mathematical tools
from the theory of the signal such as Wavelets Transforms, well-unknown nowadays in the field
of the textual information retrieval.

KEYWORDS

Information Retrieval Systems, Wavelets Transforms, Multi resolution Analysis, Information
modeling, Documentary analysis.
6

tel-00504368, version 1 - 20 Jul 2010
TABLE DES MATIERES


1 Sommaire
REMERCIEMENTS .....................................................................................................................................3
RESUME .......................................................................................................................................................4
MOTS CLES .................................................................................................................................................5
ABSTRACT ...................................................................................................................................................6
KEYWORDS ................................................................................................................................................6
TABLE DES MATIERES..............................................................................................................................7
LISTE DES TABLEAUX .......................................................................................................................... 11
LISTE DES FIGURES ............................................................................................................................... 12
INTRODUCTION ....................................................................................................................................... 13
CHAPITRE 1 : Cadre de la recherche d’information ................................................................................ 16
1 Un survol de l’histoire de la Recherche d’Information ...................................................................... 17
Introduction ....................................................................................................................................... 17
La naissance de la recherche d’information ...................................................................................... 20
Expériment

Voir icon more
Alternate Text