232
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe en t'inscrivant gratuitement
Découvre YouScribe en t'inscrivant gratuitement
232
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
N° D’ORDRE
THÈSE DE DOCTORAT
SPECIALITE : PHYSIQUE
Ecole Doctorale « Sciences et Technologies de l’Information des
Télécommunications et des Systèmes »
Présentée par : Nicolas Sturmel
Sujet :
Analyse de la qualité vocale appliquée à la parole expressive
Soutenue le 2 Mars 2011 devant les membres du jury :
M. Thierry Dutoit (président)
M. Christophe d’Alessandro (directeur de thèse)
M. Yves Laprie (rapporteur)
M. Gaël Richard (rapporteur)
M. Boris Doval (examinateur)
M. Olivier Rosec (examinateur)
tel-00591638, version 1 - 9 May 2011tel-00591638, version 1 - 9 May 2011Page 3
Remerciements
Une thèse est un travail de longue haleine, et sans l’aide de mes proches, de mes collègues
et de mes mentors, elle n’aurait pas lieu d’être. Il suffit parfois d’un conseil, d’une main tendue,
d’une porte ouverte pour faire germer une idée, une ambition. Pendant cette thèse, et plus que
jamais, j’ai apprécié les vertus de l’approfondissement, de la rigueur, du travail d’équipe et du
partage scientifique.
J’aimerais tout d’abord remercier Christophe d’Alessandro pour son encadrement sans faille.
Il aura su me guider tout au long de cette thèse afin qu’elle ait la forme que vous trouverez
aujourd’hui en lisant ce document. Merci à Boris Doval qui m’aura encadré au LIMSI pendant
les premières années de ce travail; sa rigueur aura toujours été d’une grande aide pour préciser
ma pensée scientifique.
Merci ensuite à Gaël Richard et Yves Laprie qui ont accepté de rapporter sur ce travail,
leurs remarques et conseils ont permis de pousser plus loin la qualité du document final. Merci
à Thierry Dutoit et Olivier Rosec d’avoir accepté d’assister à cette soutenance et pour leurs
remarques a posteriori. C’est un grand honneur et un grand plaisir de présenter son travail
devant les personnes qui font activement partie de la communauté scientifique de l’analyse des
signaux vocaux.
Merci à mes collègues du LIMSI pour cette agréable ambiance de travail, et en particulier au
groupe Audio et Acoustique. Merci à Albert Rilliard et Sylvain Le Beux pour leur investissement
dans la relecture et la critique du manuscrit. Merci à Tifanie, Lionel, Marc, Gaëtan et David
pour leurs remarques qui m’ont aidé à perfectionner ma soutenance.
Merci aux personnes qui m’ont accompagné pendant les années de monitorat : à Guy
Demoment, Patrick Gonord, Thomas Rodet, Frédérique Giorgiutti, Alexandre Renaux, Clarisse
Hamadache et Delphine Monnier qui m’ont guidés dans mes premiers pas d’enseignement et
mont donné les outils pour transmettre et partager mes connaissances.
Merci au personnel technique et administratif du LIMSI, de l’Université Paris Sud et de
l’école doctorale STITS.
Merci à Thomas Helie et Bertrand David qui m’ont donné lors de mes tous premiers stages,
dans une période charnière, le goût du traitement du signal audio et merci pour leur soutien
qui a contribué au commencement de cette thèse. Merci à Cécile Durieu qui, durant mon cursus
à l’ENS de Cachan, m’aura donné les bases et la rigueur que j’utilise quotidiennement en
traitement des signaux.
Et comment ne pas remercier ma famille toute entière mais spécialement mon père,
ma mère, mes soeurs et ma compagne, Charlotte et nos amis qui m’ont tous permis de
traverser ces années de thèse sans faillir de leurs soutiens et de leurs encouragements. Une
penséeparticulièrepourAndréqui,j’ensuissûr,auraitétéfierdemevoirréussircetteentreprise.
tel-00591638, version 1 - 9 May 2011"La physique ressemble à la plus exigeante et parfois à la plus destructive des
maîtresses. Nuit et jour, été, hiver, matin et soir, elle vous poursuit, vous
envahit, vous comble ou vous désespère" - Georges Charpak
tel-00591638, version 1 - 9 May 2011Table des matières
Introduction 9
IModélisationetÉtatdel’art 15
1Modèledelaproductionvocale 17
1.1 Le signal vocal : production et modélisation . . . . . . . . . . . . . . . . . . . . . 19
1.2 Les différentes échelles du signal vocal . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Le cycle glottique et sa caractérisation . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4 Le modèle du point de vue signal . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.5 Qualités vocales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2Étatdel’artdel’estimationdesparamètresdelasource 39
2.1 La détection des instants de fermeture glottique . . . . . . . . . . . . . . . . . . . 41
2.2 Filtrage inverse et caractérisation de la source . . . . . . . . . . . . . . . . . . . . 46
2.3 Périodicités, Apériodicités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
II Outils pour l’analyse de la qualité vocale 71
3 Ondelettes pour l’analyse des signaux vocaux 73
3.1 Méthode multi-échelles et application aux signaux vocaux. . . . . . . . . . . . . . 75
3.2 Etude prospective : ondelettes appliquées aux signaux de parole . . . . . . . . . . 77
3.3 Méthode LoMA pour la détection de GCI . . . . . . . . . . . . . . . . . . . . . . 82
3.4 LOMA pour la mesure de l’énergie relative . . . . . . . . . . . . . . . . . . . . . . 90
3.5 Shimmer et jitter par les ondelettes . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.6 Quotient ouvert et ondelettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.7 Parallèle avec Mean Square Phase. . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.8 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4DécompositionPériodique/Apériodique 109
4.1 Amélioration de l’algorithme PAP . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.2 Application à des signaux de tests . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3 Application à des signaux réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.4 Impact de la décomposition sur l’estimation des LoMA . . . . . . . . . . . . . . . 123
4.5 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
tel-00591638, version 1 - 9 May 20115Estimationdesparamètresdelasourceglotique 129
5.1 Validation des Zéros de la Transformée en Z comme technique de séparation
source/filtre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.2 Précision nécessaire pour l’estimation de O et α .................143q m
5.3 Formalisation du modèle pour l’extraction des paramètres . . . . . . . . . . . . . 143
5.4 Mesures préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.5 Protocole d’analyse sur signaux naturels . . . . . . . . . . . . . . . . . . . . . . . 152
5.6 Méthode hybride combinant ZZT et LoMA pour l’estimation du quotient ouvert. 155
5.7 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
III Application à de la parole expressive 163
6Analysed’ungrandcorpus 165
6.1 Constitution de la base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6.2 Analyse et Protocole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.4 Confirmation des tendances par analyse statistique . . . . . . . . . . . . . . . . . 175
6.5 Interactions source-filtre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
6.6 Corrélation entre les estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
6.7 Caractérisation des styles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.8 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7 Conclusion 189
Références 195
IV Annexes 203
AAnalysescomplémentairesdugrandcorpusdeparolenatureleetexpresive205
tel-00591638, version 1 - 9 May 2011Table des figures
1.1 Vue des éléments du larynx. Issu de Gray’s Anatomy, 20ème édition (1918). . . . 19
1.2 Modélisation de la production vocale comme une succession de filtres linéaires.
En parallèle est donné un modèle source/filtre comme celui utilisé en prédiction
linéaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Décomposition d’un signal de parole en temps au niveau de la phrase et de la
période, et en fréquence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4 Représentation du cycle glottique par vidéo ultra rapide, électroglottographie
(EGG) et dérivée de l’EGG, extrai