Sujet de thèse Structuration statistique non supervisée de l’espace acoustique pour la reconnaissance de la langue parlée Jean-François Bonastre MCF (HDR) LIA, Université d’Avignon Membre de l’Institut Universitaire de France
Description générale La reconnaissance de la langue parlée consiste à détecter de manière automatique la langue dans laquelle sont prononcés des messages vocaux. Bien entendu, seules les langues appartenant à un sous- ensemble de langues déjà connues du système peuvent être reconnues. L’approche dominante en reconnaissance de la langue consiste à construire un reconnaisseur de parole simplifié pour chacune des langues recherchées, l’ensemble des reconnaisseurs de parole étant appliqué sur chaque message vocal géré par le système [1]. Une langue est alors modélisée par la réaction de l’ensemble des reconnaisseurs de parole lorsqu’ils sont en présence d’un enregistrement prononcé dans ladite langue. Cette approche offre un niveau de performance très intéressant mais introduit également des contraintes importantes. En effet, pour reconnaître une langue donnée, il est nécessaire de disposer des ressources nécessaires à la création du reconnaisseur de parole associé, soit un corpus de parole étiquetée de grande taille et relativement homogène au niveau des conditions d’enregistrement (parole de qualité studio, parole téléphonique, données radiophoniques, enregistrements de réunions…) et du type de parole employé (parole lue, parole ...