28
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
28
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
Publié par
Langue
Français
Université StendhalLaboratoire d’Informatique de Grenoble
Equipe GETALP
Réalisé par
Atef Ben Youssef
Sous la direction de
Laurent Besacier
1Hervé Blanchon Georges AntoniadisPlan
Contexte du projet
Langue arabe
La traduction statistique
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective
2Contexte du projet
Langue arabe
La traduction statistique
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Contexte du projet
Objectifs :
Améliorer un système état de l’art en enrichissant les
données.
Comparer les performances de 2 systèmes :
Système construit sur des données brutes
sur dées enrichies
Enrichir les données :
Ajouter des classes morphosyntaxiques aux données.
Deuxième niveau (aller plus loin)
Ajouter le sens aux données.
3Contexte du projetContexte
Langue arabeLangue arabe
La traduction statistique La traduction statistique
POS Tagger Anglais et Arabe Étiquetage (POS Tagger)
Perspective Données et outils
ConclusionExpériences et évaluation
Conclusion et perspective Langue arabe
Riche morphologie
Problèmes du traitement automatique de la langue arabe
Absence des voyelles
Ambiguïté
Sens de mot
Fonction de mot
Détection de racine
Problème de segmentation
4Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Traduction Probabiliste
La traduction statistique se résume à trouver le document cible ayant la
plus grande probabilité d’être la traduction d’un document source .
Le théorème de Bayes :
s est le mot à traduire
t est une traduction possible du mot s
Pr(t|s) est la valeur assignée pour chaque paire de mots (t,s)
Puisque le dénominateur est indépendant de t, s est fixe
t = argmax Pr(t) Pr(s|t) t
Les trois défis informatiques présentés par la traduction statistique :
Le modèle de langage Pr(t).
Le modèle du traduction Pr(s|t).
L’algorithme de recherche (argmax ).t 5Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Modèles de langue
Un modèle statistique de langue donne la probabilité d’observer
un mot sachant ceux qui le précèdent.
Ces modèles sont obtenus à partir de données d’entraînement (ou
d’apprentissage) sur des corpus de la langue cible.
Les systèmes à base de modèles de langue statistiques
permettent d’estimer la probabilité a priori de la séquence de mots
S = m , m , ..., m selon l'équation suivante :1 2 n
P( S ) = P(m ) x P( m | m ) x ... x P( m | m , m , ..., m ) 1 2 1 n 1 2 n-1
6Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Modèles de traduction
Le modèle de traduction donne la probabilité qu’un mot ou un groupe
de mots dans la langue source soit traduit par un autre dans la langue
cible.
Un modèle de traduction est vu comme un modèle d’alignement de
mots.
The program has been implemented
Le programme a été mis en application
I J Nous nous intéressons ici au problème du calcul de P(s |t )
Brown et al, propose cinq modèles IBM de traduction pour :
I J Modéliser P(S=s |T=t )
Chaque modèle diffère de l’autre par la façon de calculer la probabilité
de traduction Pr(s|t). 7Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Machine de traduction
Phase d’entraînement
Texte source (réalisée une seule fois)
s
Corpus
P(s|t) Modèle de Arabe
traduction
Décodeur
Argmax p(e)*p(f/e)
P(t) Corpus Modèle de
Anglaislangage
t
Texte cible
Machine de traduction statistique : Arabe/Anglais 8Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Modèle factoriel
• les processus de traduction sont divisés en trois étapes [Koehn et
Hoang, 2007]. :
• Traduire les lemmes d'entrée par les lemmes de sortie
• Traduire les informations morphosyntaxiques (POS) et morphologiques.
• Générer les mots en tenant compte des facteurs linguistiques traduits.
9Exemple d’un modèle factorielContexte du projet
Langue arabe
La traduction probabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective POS Tagger : Anglais
Utilisation de 36 balises (Tagset)
Are these all your personal effects?
Étiqueteur TreeTagger :
Are VBP be
these DT these
all PDT all
your PP$ your
personal JJ personal
effects NNS effect
? SENT ?
Évaluation [Schmid, 1994] :
97.53% 10