Cours RI

icon

16

pages

icon

Français

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

16

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Approches fondées sur le s chaînes de caractères pour le Re cherche d'Inf ormation Mathieu RocheCours ECD (Recherche d'Information et Langage Naturel)2008/2009Utilisation des informations sur les chaînes de caractères en RI● Utiliser des connaissances sémantiques pour améliorer les méthodes de classification (cf cours précédent).– De telles connaissances ex istent dans le dom aine général. – Limite : domaines spécialisés.Lien entr e les chaînes de car actères et la “sémantique” ?2 Cours ECD - M2 – 2008/ 2009Utilisation des informations sur les chaînes de caractères en RI● Utiliser des méthodes fondées sur les chaînes de caractères pour :– Apporter des connaissances sémantiques (pour le regroupement de m ots “sém antiquement” proches),– Normaliser les textes (correction orthographique, etc.),– Reconnaissance des langues ,– Identification de plagiat (prox imité d e m arques déposées à l'IN P I),3 Cours ECD - M2 – 2008/ 2009– etc.Suffixes/ PréfixesBut : vé rifier q u'une c haîne d e c aractères Ch1 s e retrouve :• au d ébut d 'une c haîne d e ca ractères Ch2 (préfixe),• à la fi n d 'une ch aîne d e c aractères Ch2 (suffixe).✔ Exemples de similarités :● P réfixe -> Ch1 = chat / Ch2 = chaton● Suffixe -> Ch1 = suivre / Ch2 = p oursuivre4 Cours ECD - M2 – 2008/ 2009Suffixes/ PréfixesAvantage : efficace s ur c ertains domaines spécialisés te ls q ue la m édecine [N akache et al. 2006]✔ Les s uffixes indicateurs d 'états path ologiques : ...
Voir icon arrow

Publié par

Langue

Français

Approches fondées sur les chaînes de caractères pour le Recherche d'Information
Mathieu Roche
Cours ECD (Recherche d'Information et Langage Naturel)
2008/2009
 et èressémala eu tnqi
Limite : domaines spécialisés.
Utilisation des informations sur les chaînes de caractères en RI
?
Utiliser des connaissances sémantiques pour améliorer les méthodes de classification (cf cours précédent).
2
2M  D - sCEoCru098/20 200ncsa eeson cisnaet esellDgénéral.domaine adsnl  eixtsne t racte caes dhaînsec erl e tniLne
3
Utilisation des informations sur les chaînes de caractères en RI
Utiliser des méthodes fondées sur les chaînes de caractères pour :
Apporter des connaissances sémantiques (pour le regroupement de mots “sémantiquement” proches),
Normaliser les textes (correction orthographique, etc.),
Reconnaissance des langues ,
Identification de plagiat (proximité de marques déposées à l'INPI),
etc.
Cours ECD - M2  0280/2009
4
Suffixes/Préfixes
But : vérifier qu'une chaîne de caractères Ch1 se retrouve : • au début d'une chaîne de caractères Ch2   ( préfixe ), • à la fin d'une chaîne de caractères Ch2 ( suffixe ).
Exemples de similarités :  Préfixe -> Ch1 = chat / Ch2 = chat on Suffixe -> Ch1 = suivre / Ch2 = pour suivre
oCurs ECD - M2  2008/0290
5
Suffixes/Préfixes
Avantage : efficace sur certains domaines spécialisés tels que la médecine [Nakache et al. 2006]
Les suffixes indicateurs d' états pathologiques : 'ite' pour  désigner l'inflammation (pancréat ite , appendic ite , gastr ite ), 'algie'  ou 'odynie' pour la douleur.
Les suffixes indicateurs de gestes techniques : 'centèse'  signifie ponction, 'ectomie' est propre à l'ablation, 'plastie' la réparation.
 
Cours ECD M2 – 2008/2009 -
6
Suffixes/Préfixes
Utilisation de ces connaissances (suffixes/préfixes) sur les chaînes de caractères comme connaissance du domaine.
Désuffixation pour améliorer les méthodes de classification [Nakache et al., 2006]
Limite : chat / chateau !  
oCrus ECD - M2  2008/2009
 2M002 CE s - D208/709oCrui sspeapes» aut atsi ecndE «D tique : L'Remar
Il existe de nombreuses mesures de similarité (pas seulement au niveau des méthodes de mise en correspondance de schémas).
Exemple avec la distance « Edit distance » (notée E ) = somme minimale du coût des opérations qu'il faut effectuer pour transformer Ch1 en Ch2 .   Opérations : suppression, insertion, remplacement.
String Matching
is D «lédee nctahsneveL  » niet
8
String Matching
Exemple : E ( gréviste , grève ) = 4  
Ch1 : g _
Opérations : Ch2 : _ g
r é v i _ _ _ _
Remplacement Insertio
r è v _ _ _
nIn
s _
serti
noIns
t _
ert
ion
e _
e _
Mesure prenant en compte E : la mesure String Matching ( SM ) de Maedche et Staab :  SM(Ch1,Ch2) = max[ 0; (min(|Ch1|,|Ch2|)-E(Ch1,Ch2))/min(|Ch1|,|Ch2|) ]
SM ( gréviste , grève ) = max(0;(5-4)/5) = 0.2 Calculer SM (chat,chaton) Cour
 
Cours ECD - M2 – 2008/2009
9
String Matching
Méthode (Distance de Levenshtein) :  
Construire une matrice M de n+1 lignes et m+1 colonnes. Initialiser de la première ligne par la matrice ligne [ 0,1,….., m-1, m] et la première colonne par la matrice colonne [ 0,1,….., n-1, n]
Soit Cout(i, j)=0 si A(i)=B(j) et Cout(i, j)=1 si A(i)!=B(j) On a donc ici la matrice Cout :
oCrus EDC  -2M  0280/2009
10
String Matching
On remplit ensuite la matrice M en utilisant la règle suivante M[i, j] est égale au minimum de: L’élément directement avant plus 1: M[i-1, j] + 1. -      - L’élément directement au dessus plus 1: M[i, j-1] + 1.  - Le diagonal précédent plus le coût: M[i-1, j-1] + Cout(i, j).
...
Cours 
Calculer la matrice pour les mots : (chat, chaton)
ECD - 2M  2008/0290
/200911TechniquE DC- M  2 0280Crsoucllu rac erel ilutt esou péeis-n sed e semmargM oene isdee vreum serusef noédse sur les tri-grasemmlet uq sal ees me ur Lde.in
Généralement, la valeur de n varie entre 1 et 5.
 nombre de n caractères consécutifs.
n-grammes
Exemple de tri-grammes : Ch1 = chat / Ch2 = chaton : tr(Ch1) = { cha , hat } tr(Ch2) = { cha , hat , ato, ton}
 
Voir icon more
Alternate Text