Thèse

icon

141

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

141

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Université Paris-Sud 11 — Faculté des sciences d’Orsay
Ecole Doctorale d’Informatique de Paris-Sud
Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur
Thèse
pour le diplôme de Docteur en Sciences, spécialité Informatique
présentée et défendue publiquement
le lundi 17 décembre 2007 à Orsay (91)
par
Daniel Déchelotte
Traduction automatique de la parole par méthodes statistiques
Automatic Speech Translation by statistical methods
Membres du jury : Laurent Besacier (rapporteur)
Roland Kuhn (rapporteur)
Holger Schwenk (directeur)
Jean-Luc Gauvain (co-directeur)
Philipp Koehn (examinateur)
Joseph Mariani (examinateur) Pour leur écoute,
Pour leur patience,
Pour leurs conseils,
Pour leur gentilesse,
Merci
à ma fiancée,
à ma famille, mes parents et mes sœurs,
à mes directeur et co-directeur de thèse,
aux collègues du groupe TLP et du LIMSI,
aux amis,
à mon kinésithérapeute,
et à toi lecteur! 4
Cette thèse a été partiellement financé par l’Union Européenne sous le projet
TC-Star (IST-2002-FP6-506738), et par le Gouvernement français sous le projet
Instar (ANR JCJC06_143038). Table des matières
1 Introduction 9
I Modèles et algorithmes pour la traduction automatique 11
2 Introduction à la traduction automatique 13
2.1 État de l’art de algorithmes de traduction automatique . . . . . . . . . 13
2.1.1 Approches à la traduction automatique . . . . . . . . . . . . . . 13
2.1.2 L’approche statistique . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.3 Modèles ...
Voir icon arrow

Publié par

Nombre de lectures

84

Langue

Français

Poids de l'ouvrage

1 Mo

Université Paris-Sud 11 — Faculté des sciences d’Orsay Ecole Doctorale d’Informatique de Paris-Sud Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur Thèse pour le diplôme de Docteur en Sciences, spécialité Informatique présentée et défendue publiquement le lundi 17 décembre 2007 à Orsay (91) par Daniel Déchelotte Traduction automatique de la parole par méthodes statistiques Automatic Speech Translation by statistical methods Membres du jury : Laurent Besacier (rapporteur) Roland Kuhn (rapporteur) Holger Schwenk (directeur) Jean-Luc Gauvain (co-directeur) Philipp Koehn (examinateur) Joseph Mariani (examinateur) Pour leur écoute, Pour leur patience, Pour leurs conseils, Pour leur gentilesse, Merci à ma fiancée, à ma famille, mes parents et mes sœurs, à mes directeur et co-directeur de thèse, aux collègues du groupe TLP et du LIMSI, aux amis, à mon kinésithérapeute, et à toi lecteur! 4 Cette thèse a été partiellement financé par l’Union Européenne sous le projet TC-Star (IST-2002-FP6-506738), et par le Gouvernement français sous le projet Instar (ANR JCJC06_143038). Table des matières 1 Introduction 9 I Modèles et algorithmes pour la traduction automatique 11 2 Introduction à la traduction automatique 13 2.1 État de l’art de algorithmes de traduction automatique . . . . . . . . . 13 2.1.1 Approches à la traduction automatique . . . . . . . . . . . . . . 13 2.1.2 L’approche statistique . . . . . . . . . . . . . . . . . . . . . . . . 16 2.1.3 Modèles à base de mots . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.4 Modèles par groupes de mots . . . . . . . . . . . . . . . . . . . . 23 2.1.5 Modèles statistiques syntaxiques . . . . . . . . . . . . . . . . . . 25 2.2 Motivations et choix pour la conception de nos systèmes de traduction . 26 2.3 Tâches de traduction considérées . . . . . . . . . . . . . . . . . . . . . . 28 2.3.1 Traduction de discours parlementaires . . . . . . . . . . . . . . . 28 2.3.2 Détails des conditions de traduction . . . . . . . . . . . . . . . . 29 2.3.3 Données servant à l’entraînement, au développement et à l’éva- luation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4 Mesures automatiques de la qualité des traductions . . . . . . . . . . . . 31 2.4.1 Mesures reposant sur des taux de mots erronés . . . . . . . . . . 32 2.4.2 Mesures de ressemblances aux traductions de référence . . . . . . 33 3 Système de traduction à base de mots 37 3.1 Description générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2 Moteur de traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2.1 Stratégie de recherche . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2.2 Organisation des hypothèses en files . . . . . . . . . . . . . . . . 41 3.2.3 Heuristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6 TABLE DES MATIÈRES 3.2.4 Caractéristiques spécifiques du traducteur . . . . . . . . . . . . . 45 3.3 Modèles de langage et de traduction . . . . . . . . . . . . . . . . . . . . 47 3.3.1 Entraînement du modèle de traduction . . . . . . . . . . . . . . . 47 3.3.2 Construction du modèle de langage . . . . . . . . . . . . . . . . . 47 3.4 Expériences et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4.1 Utilisation des treillis pour régler le système . . . . . . . . . . . . 49 3.4.2 Influence de la longueur des phrases à traduire . . . . . . . . . . 51 3.4.3 Influence de la taille des files d’hypothèses . . . . . . . . . . . . . 52 3.4.4 Influence des limitations de réordonnement . . . . . . . . . . . . 52 3.4.5 Traitement des longues phrases . . . . . . . . . . . . . . . . . . . 56 3.4.6 Utilisation de meilleurs modèles de langage . . . . . . . . . . . . 60 4 Système de traduction par groupes de mots 63 4.1 Description générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2 Modèle de traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.3 Moteur de traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.3.1 Stratégie de recherche . . . . . . . . . . . . . . . . . . . . . . . . 65 4.3.2 Heuristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.4 Modèles de langage et de traduction . . . . . . . . . . . . . . . . . . . . 66 4.4.1 Extraction des paires de groupes de mots . . . . . . . . . . . . . 67 4.4.2 Estimation des scores de chaque paire de groupes de mots . . . . 67 4.5 Expériences et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.5.1 Réglage de la première passe . . . . . . . . . . . . . . . . . . . . 68 4.5.2 Seconde passe : définition et réglage . . . . . . . . . . . . . . . . 70 4.5.3 Fonctions caractéristiques supplémentaires et intégration avec le traducteur à base de mots . . . . . . . . . . . . . . . . . . . . . . 72 5 Adaptation discriminante de la table de traduction 75 5.1 Apprentissage discriminant . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.1.2 Cadre « classique ». . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.1.3 Cadre pour l’apprentissage discriminant de la table de traduction 77 5.2 Présentation des approches alternatives . . . . . . . . . . . . . . . . . . 80 5.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.3.1 Performances de l’adaptation discriminante . . . . . . . . . . . . 82 TABLE DES MATIÈRES 7 5.3.2 Ajouts de dev06 aux données d’apprentissage . . . . . . . . . . . 82 5.3.3 Résultats complets pour le sens espagnol vers anglais . . . . . . . 84 5.3.4 Résultats pour le sens anglais vers espagnol . . . . . . . . . . . . 86 5.3.5 Analyse et discussion . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.4 Autres travaux et perspectives . . . . . . . . . . . . . . . . . . . . . . . 87 II Spécificités de la traduction de la parole 89 6 Motivation 91 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.2 Différences entre texte et parole du point de vue de la traduction . . . . 92 6.2.1 Niveau de langue et disfluences . . . . . . . . . . . . . . . . . . . 92 6.2.2 Segmentation en phrases et ponctuation . . . . . . . . . . . . . . 94 6.2.3 Du point de vue des techniques d’apprentissage . . . . . . . . . . 95 6.3 Étude de l’interaction avec la reconnaissance automatique . . . . . . . . 96 6.3.1 Aspects théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . 96 6.3.2 Traduction de la sortie ambiguë de la reconnaissance automatique 98 6.3.3 Importances relatives des différents modèles . . . . . . . . . . . . 101 6.3.4 Réglage de la reconnaissance automatique spécifiquement pour la traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 7 Traduction d’un flux de mots 105 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 7.2 Cadre expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 7.2.1 Systèmes de reconnaissance de la parole . . . . . . . . . . . . . . 106 7.2.2 Système de traduction . . . . . . . . . . . . . . . . . . . . . . . . 106 7.3 Traitements proposés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 7.3.1 Casse et ponctuation . . . . . . . . . . . . . . . . . . . . . . . . . 107 7.3.2 Suppression des disfluences et normalisations . . . . . . . . . . . 108 7.3.3 Traitement des mots composés . . . . . . . . . . . . . . . . . . . 108 7.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 7.4.1 Impact de la casse et de la ponctuation . . . . . . . . . . . . . . 110 7.4.2 Impact de la suppression des disfluences et des normalisations . . 111 7.4.3 Impact du traitement des mots composés . . . . . . . . . . . . . 111 7.4.4 De l’intérêt de réoptimiser les poids de deuxième passe . . . . . . 111 8 TABLE DES MATIÈRES 7.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 8 Intégration avec la reconnaissance automatique de la parole 113 8.1 Importances relatives des différents modèles utilisés par la reconnais- sance automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.1.1 Système de reconnaissance de la parole. . . . . . . . . . . . . . . 114 8.1.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 8.2 Traduction de la sortie ambiguë de la reconnaissance automatique . . . 117 8.2.1 Nécessité d’inclure le modèle de langage source . . . . . . . . . . 117 8.2.2 Expériences incluant le modèle de langage source . . . . . . . . . 118 8.3 Réglage de la reconnaissance automatique spécifiquement pour la tra- duction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 8.3.1 Influence du décodage par consensus et du ROVER . . . . . . . 119 8.3.2 Influence des taux d’insertion et de suppression . . . . . . . . . . 121 9 Conclusion et perspectives 125 Chapitre 1 Introduction Échanger, collaborer, construire ensemble, tout serait plus simple si l’on pouvait parler toutes les langues. Ou, à défaut, disposer d’un outil le permettant. Même si le rêve de converser librement avec tous les habitants de la planète n’est pas encore acces- sible, de nombreuses applications de la traduction de la parole sont envisageables. On songe notamment à une utilisation touristique : un traducteur informatique serait une aide précieuse pour s’informer et communiquer dans un pays dont la langue est in- connue. Parmi les applications professionnelles, des systèmes de dialogue pourraient faciliter l’échange et la négociation avec des partenaires internationaux. D’autres ap- plications incluent la traduction de journaux télévisés et l’indexation cross-lingue de contenus multimédias. Ceci permettrait aux entreprises, par exemple, de savoir dans quels contextes elles ont été citées, et aux citoyens d’avoir un accès impartial à des journaux étrangers. Citons également le nombre croissant de langues officielles au sein de l’
Voir icon more
Alternate Text