RJ - Sujet de these

icon

1

page

icon

Español

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

1

page

icon

Español

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Utilisation de mod èles de Markov cach és à grande marge  dans la transcription    d’émissions radiophoniques en    langue Arabe  Une étape fondamentale en reconnaissance automatique de la parole est le passage de l'onde sonore à une suite discrète d'unités phonétiques ou lexicales. Cette étape de reconnaissance acoustique est cruciale et influe sur les performances globales d'un système.   Les modèles acoustiques   représentent   les  éléments  à  reconnaitre,  mots   ou  unités  phonétiques,  et   sont généralement  repr ésentés par des mod èles de Markov cach és à densité continue ( CD­HMMs ), dont les paramètres sont obtenus par estimation au sens du maximum de vraisemblance (ML). Un grand intérêt de la méthode est l'existence d'algorithmes itératifs dont la convergence est garantie, comme l'algorithme  EM qui est largement utilis é.Si la méthode ML améliore la capacité d'un classifieur à représenter une classe (modèle) de formes donnée, elle ne permet pas d'optimiser sa capacité à classer une forme inconnue, car l'apprentissage d'une classe ne prend pas en compte des formes appartenant à d'autres classes ni des contre­exemples. L'id éal est de minimiser la variance intraclasse tout en maximisant les  variances   interclasses.   Diverses   méthodes   d'apprentissage   discriminant   ont  été   conçues, fondées notamment sur : la maximisation de l'information mutuelle (MMI) entre un signal acoustique et la séquence de mots correspondante ...
Voir icon arrow

Publié par

Langue

Español

Utilisation de modèles de Markov cachésàgrande marge danslatranscriptiond’émissions radiophoniques enlangue Arabe
Uneétape fondamentale en reconnaissance automatique de la parole est le passage de l'onde sonoreàune suite discrète d'unités phonétiques ou lexicales. Cetteétape de reconnaissance acoustique est cruciale et influe sur les performances globales d'un systèmodme. Lesèles acoustiques représentent lesélémentsà reconnaitre,mots ou unités phonétiques, et sont généralement représentés par des modèles de Markov cachésàdensitécontinue (CD-HMMs), dont les paramètres sont obtenus par estimation au sens du maximum de vraisemblance (ML). Un grand intérêt de la méthode est l'existence d'algorithmes itératifs dont la convergence est garantie, comme l'algorithmeEMqui est largement utilisé.
Si la méthodeML améliore la capacitéd'un classifieuràreprésenter une classe (modèle) de formes donnée, elle ne permet pas d'optimiser sa capacitéàclasser une forme inconnue, car l'apprentissage d'une classe ne prend pas en compte des formes appartenantàd'autres classes ni des contre-exemples. L'idéal est de minimiser la variance intraclasse tout en maximisant les variances interclasses. Diverses méthodes d'apprentissage discriminant ontété conçues, fondées notamment sur : la maximisation de l'information mutuelle (MMI) entre un signal acoustique et la séquence de mots correspondante, la minimisation de l'erreur de classification (MCE) en se basant sur une approximation du nombre d'erreurs de classification des données d'apprentissage, et la minimisation de l'erreur de vérification (MVE).
Récemment,Fei ShaetLawrence K. Saul[1] ont développéde nouvelles méthodes, appellées àgrande marge, pour l'estimation des paramètres des modèles acoustiques. Ces méthodes se basent sur la séparation entre les classes correctes et fausses par une grande marge (type SVM), obtenue par une maximisation de cette dernière selon un critère d'optimisation convexe. Les premiers développements ont portésur l'apprentissage de modèles de mélanges de gaussiennes (GMMs)àgrande marge, utilisés dans la classification multiclasse. Ensuite ils ontétéétendusàdesHMMsàgrande marge utilisés pour la classification séquentielle [1]. Ces nouvelles techniques différent des précédentes méthodes discriminantes en terme de maximisation de marge, mais surtout ils aboutissentàune optimisation convexe, sans aucun faux minimum local. Ces méthodesàgrande marge ontétéévaluédans des applications de classification et de reconnaissance phonétique et ont permis d'obtenir des améliorations significatives, par rapport aux autres approches discriminantes.
L'objectif de cette thèse est d'étendre, modifier et utiliser les approchesàgrande marge, dans un système de transcription automatique d'émissions radiophoniques en langue Arabe. Il existe plusieurs axes de recherche, entre autre, la modélisation dépendante du contexte (les modèles triphones par exemple), la modélisation d'états cachés partiellement observables dans le cas d'utilisation de corpus non accompagnéd'alignements phonétiques, et la reformulation des contraintesàgrande marge en utilisant des fonctions discriminantes combinantàla fois les scores acoustiques avec les scores donnés par le modèle de langage. Sans oublier les nombreux challenges ajoutés par la langue Arabe. L'arabe est une langue très flexionnelle, et qui utilise massivement les consonnes. Elle présente une différence significative entre les formesécrites et parlées, et se caractérise par une grande diversitéde prononciations et de dialectes. Le vocabulaire arabe est remarquablement riche, et les nuances dans les mots sont plus nombreuses qu'en français. Et en plus de l'ambiguïtégrammaticale, la plupart des mots en arabe sont vocaliquement ambigus,àdes niveaux plusélevés que pour le français.
[1] Fei Sha and Lawrence K. Saul.Large margin hidden Markov models for automatic speech recognition. Advances in Neural Information Processing Systems 19 (NIPS'07). B. Schölkopf, J.C. Platt, and T. Hofmann.Cambridge, MA, 2007. MIT Press.Outstanding Student Paper Award.
Voir icon more
Alternate Text