Thèse

icon

193

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

193

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Thèse
présentée à
l’Ecole Nationale Supérieure des
Télécommunications de Bretagne
EN HABILITATION CONJOINTE AVEC L’UNIVERSITÉ
DE BRETAGNE SUD
EN COTUTELLE AVEC L’UNIVERSITÉ
MOHAMED-V-AGDALDE RABAT
pour obtenir
le grade de :Docteur de Télécom Bretagne
mention : Traitement du Signal et T´el´ecommunications
par
Asmaa Amehraye
Débruitage perceptuel de la parole
Soutenue le 15 mai 2009 devant la commission d’Examen :
Composition du Jury :
Président : Jacques FROMENT, Professeur à l’UBS, Vannes
Rapporteurs : Régine LE BOUQUIN JEANNÈS, professeur à l’Université de Rennes1
Yves LAPRIE, directeur de recherche au CNRS, Nancy
Examinateurs : Driss ABOUTAJDINE, professeur à l’Université MohammedV-Agdal
Ahmed TAMTAOUI, professeur à l’INPT, Rabat
Samir SAOUDI, professeur à Télécom Bretagne, Brest
Invités : Dominique PASTOR, professeur à Télécom Bretagne, Brest
Christophe BEAUGEANT, ingénieur de recherche, INFINEON `A la m´emoire de mon p`ere Remerciements
Je tiens d’abord `a remercier Dominique PASTOR pour avoir encadr´e cette th`ese
et pour m’avoir encourag´ee, motiv´ee et conseill´ee tout au long de mes ann´ees de th`ese
sans oublier les heures de discussions fructueuses au t´el´ephones lors des p´eriodes de
th`ese pass´ees au Maroc.
Je remercie ´egalement le professeur Driss Aboutajdine qui as cru en mes
comp´etences jusqu’au bout et m’a propos´e cette th`ese en cotutelle pour la premi`ere
fois entre l’Universit´e MohamedV-Agdal et T´el´ecom Bretagne.
`Je remercie vivement les ...
Voir icon arrow

Publié par

Nombre de lectures

117

Langue

Français

Poids de l'ouvrage

2 Mo

Thèse présentée à l’Ecole Nationale Supérieure des Télécommunications de Bretagne EN HABILITATION CONJOINTE AVEC L’UNIVERSITÉ DE BRETAGNE SUD EN COTUTELLE AVEC L’UNIVERSITÉ MOHAMED-V-AGDALDE RABAT pour obtenir le grade de :Docteur de Télécom Bretagne mention : Traitement du Signal et T´el´ecommunications par Asmaa Amehraye Débruitage perceptuel de la parole Soutenue le 15 mai 2009 devant la commission d’Examen : Composition du Jury : Président : Jacques FROMENT, Professeur à l’UBS, Vannes Rapporteurs : Régine LE BOUQUIN JEANNÈS, professeur à l’Université de Rennes1 Yves LAPRIE, directeur de recherche au CNRS, Nancy Examinateurs : Driss ABOUTAJDINE, professeur à l’Université MohammedV-Agdal Ahmed TAMTAOUI, professeur à l’INPT, Rabat Samir SAOUDI, professeur à Télécom Bretagne, Brest Invités : Dominique PASTOR, professeur à Télécom Bretagne, Brest Christophe BEAUGEANT, ingénieur de recherche, INFINEON `A la m´emoire de mon p`ere Remerciements Je tiens d’abord `a remercier Dominique PASTOR pour avoir encadr´e cette th`ese et pour m’avoir encourag´ee, motiv´ee et conseill´ee tout au long de mes ann´ees de th`ese sans oublier les heures de discussions fructueuses au t´el´ephones lors des p´eriodes de th`ese pass´ees au Maroc. Je remercie ´egalement le professeur Driss Aboutajdine qui as cru en mes comp´etences jusqu’au bout et m’a propos´e cette th`ese en cotutelle pour la premi`ere fois entre l’Universit´e MohamedV-Agdal et T´el´ecom Bretagne. `Je remercie vivement les professeurs R´egine LE BOUQUIN JEANNES et Yves LAPRIE pour avoir accept´e de rapporter cette th`ese. Merci pour toutes vos remarques et questions qui ont permis de mettre plus en valeur ce document de synth`ese. Mes remerciements vont ´egalement aux membres de mon jury : M. Jacques FRO- MENT qui a accept´e de pr´esider la soutenance, M. Ahmed TAMTAOUI et M. Chris- tophe BEUAGEANT pour l’int´erˆet qu’ils ont port´e `a mes travaux et finalement le professeur Samir SAOUDI pour avoir accept´e de diriger cette th`ese et la mener `a terme surtout administrativement. Je garde un souvenir chaleureux de l’´equipe des permanents et des th´esards du d´epartement Signal et Communications pour leur esprit de famille. Je les remercie pour tous les bons moments pass´es ensemble. Un grand merci `a tous les volontaires (permanents, th´esards et stagiaires), des diff´erents d´epartements de T´el´ecom Bretagne, qui se sont pris la peine de passer une heure et demi de tests d’´ecoute afin que je puisse reproduire une analyse subjective de mes algorithmes. Merci `a tout ceux que j’ai connu de l’ensemble du personnel administratif et tech- nique de TELECOM Bretagne pour leur gentillesse, disponibilit´e et efficacit´e. Une pens´ee profonde et affectueuse `a ma ch`ere mama qui m’a toujours soutenu et fait confiance, sans elle et feu mon p`ere, je n’aurais jamais pu partir loin de mon pays et faire cette th`ese. Merci infiniment pour vos pri`eres. Mes vives remerciements `a mes soeurs et `a mon fr`ere pour leur solidarit´e, leur encouragements, leur patience et leur amour. Sachez que votre soutien est bien plus puissant que vous ne l’imaginez. A mon rayon de soleil qui a ´eclair´e le ciel gris de la Bretagne, qui m’a encourag´ee, soutenue et motiv´ee sans cesse pour arriver au bout de cette th`ese, un grand merci pour tout. R´esum´e Depuis une dizaine d’ann´ee, l’investigation des m´ethodes de d´ebruitage de la parole a permis d’atteindre des r´esultats spectaculaires. Cependant, certaines probl´ematiques etquestionsrestentouvertes.Unedecesprobl´ematiquesestdeparvenir`auncompromis entrelar´eductiondubruit,ladistorsiondusignaletlebruitr´esidueletmusical.L’essor des m´ethodes bas´ees sur des notions perceptuelles, essentiellement le ph´enom`ene de masquage fr´equentiel, a suscit´e beaucoup d’int´erˆet ces derni`eres d´ecennies. L’objectif de base des filtres perceptuels est de r´eduire le bruit sans apporter plus de distorsion sur le signal de parole. L’une des fac¸ons d’´eviter des distorsions superflues est alors d’op´erer uniquement dans les fr´equences ou` le bruit est perceptuellement significatif. Cependant, en proc´edant ainsi, le bruit initialement inaudible, et par cons´equent non pris en compte par le d´ebruitage perceptuel, risque de devenir audible et gˆenant si les masquants de ce bruit sont filtr´es. C’est ce que l’on nomme dans cette th`ese, le ph´enom`ene MAN (Maskee to Audible Noise). Lescontributionsmajeuresdecetteth`esesontenpremierlieu,demettreen´evidence ce ph´enom`ene qui, `a notre connaissance, n’a jamais encore ´et´e d´ecrit et de montrer ses effets secondaires. Ensuite, nous proposons une approche ´el´ementaire pour rem´edier au ph´enom`ene MAN grˆace `a un double filtrage att´enuant le bruit dans toutes les fr´equences pour ´eviter la production de ce ph´enom`ene. Nous proposons une deuxi`eme approche bas´ee sur un filtre optimal, dit anti-MAN, au sens d’un crit`ere s´electif par zone de fr´equence. A travers ce crit`ere, nous d´efinissons la zone du ph´enom`ene MAN et pouvons ainsi att´enuer le bruit y contribuant. Des ´evaluations comparatives sur des crit`eres objectifs et subjectifs de qualit´e sont pr´esent´ees pour plusieurs types de bruit et de rapport signal `a bruit. Les r´esultats ont r´ev´el´elasup´eriorit´edesm´ethodespropos´eesdanscetravailparrapport`adesm´ethodes perceptuelles r´ecentes ne consid´erant pas le ph´enom`ene MAN. Dans la suite exp´erimentale de ce travail, nous avons conc¸u deux syst`emes de re- connaissance de la parole avec HTK (Hidden Markov Models); l’un est bas´e sur des monophonesetl’autresurdestriphones.Laphased’apprentissagedecesdeuxsyst`emes s’est d´eroul´ee en absence du bruit; ceci nous apermis d’´evaluer l’impact du d´ebruitage sur les performances de ces syst`emes en pr´esence de bruit. Les r´esultats montrent que les m´ethodes qui se distinguent par rapport `a des crit`eres objectifs et mˆeme subjectifs ne sont pas forc´ement celles qui rendent les syst`emes de reconnaissance plus robustes. Ces derniers sont g´en´eralement plus sensibles aux distorsions vu que le destinataire final est une machine. Mots cl´es : D´ebruitage perceptuel, psychoacoustique, filtrage de Wiener, mas- quagefr´equentiel,bruitmusical,distorsiondusignal,ph´enom`ene MAN,testssubjectifs et objectifs, reconnaissance de la parole. Abstract Speech enhancement has been extensively investigated in the last years giving rise to spectacular results. However, some problems and questions remain open. One of these problems is to reach a compromise between noise reduction, signal distorsion and residual musical noise. The development of methods based on perceptual notions, mainly on the masking phenomenon, gained a lot of interest these last decades. The basic objective of perceptual filters is to reduce noise without introducing much signal distorsion.Onewaytoavoidsuperfluousdistorsionisthentooperateonlyinfrequencies wherenoiseisperceptuallysignificant.However,bysoprocessing,theinitiallyinaudible noise, and as such not taken into account by the perceptual denoising, can become audible and annoying if its maskers are filtered. This is what we call in this thesis the MAN phenomenon (Maskee to Audible Noise). Themaincontributionsofthisthesisarethefollowingones.Webeginbyillustrating the MAN phenomenon, which, to our knowledge, has never been presented before. We show the side effects of this phenomenon. Then, we propose a basic approach to correct the MAN phenomenon thanks to a double filtering that attenuates noise in all frequencies to avoid the production of this phenomenon. We propose a second approach based on an optimal filter called anti-MAN filter. It is frequency selective. In this criterion, we define the MAN phenomenon location to attenuate the noise contributing to it. Comparative evaluation based on objective and subjective criteria is introduced for several noise types and several signal to noise conditions. Results revealed the superiority of the proposed methods in comparison with recently perceptual methods not taking the phenomenon MAN into account. We also conceived two speech recognition systems with HTK (Hidden Markov Mo- delsTollkit):thefirstoneisbasedonmonophonesandtheotheroneontriphones.The training of these two systems was performed in the absence of noise; this allowed us to assess the impact of the enhancement on the speech recognition system performance in presence of noise. Results show that the best methods regarding objective and even subjective criteria are not necessarily those that return the more robust recognition systems. The latters are in general more sensitive to distorsions. key words : Perceptualenhancement,psycho-acoustic,Wienerfiltering,frequency masking, musical noise, signal distorsion, MAN phenomenon, subjective and objective tests, speech recognition.
Voir icon more
Alternate Text