155
pages
English
Documents
2009
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
155
pages
English
Documents
2009
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
Publié par
Publié le
01 janvier 2009
Nombre de lectures
10
Langue
English
Poids de l'ouvrage
5 Mo
Publié par
Publié le
01 janvier 2009
Nombre de lectures
10
Langue
English
Poids de l'ouvrage
5 Mo
S
S
A
A
T
R
I
A
S
V
R
Saarland University
Faculty of Natural Sciences and Technology I
Department of Computer Science
Dissertation
for obtaining the title of Doctor of Engineering of the Faculties
of Natural Sciences and Technology of Saarland University
Adaptive Time-Frequency Analysis for
Cognitive Source Separation
submitted by
Sylvia Kümmel
Supervisor
Prof. Dr.-Ing. Thorsten Herfet
Saarbrücken, December 2009
I
E
E
V
N
I
S
N
I
U
Sii
Date of Colloquium: 21.04.2010
Dean of Faculty: Prof. Dr. Holger Hermanns
Members of examination board:
Prof. Dr.-Ing. Thorsten Herfet, Saarland University
Prof. Udo Zölzer, Helmut Schmidt University Hamburg
Prof. Dr. Antonio Krüger, Saarland University
Dr. Mark Hillebrand, Saarland Universityiii
Statutory declaration
Hereby I affirm in lieu of an oath, that I made the present thesis autonomously and without
other than the indicated auxiliary means. The data used indirectly or from other sources and
concepts are characterized with lists of sources. The thesis has not been submitted for academic
degree consideration either nationally or internationally in identical or similar from to date.
Saarbrücken, April 27, 2010
Sylvia Kümmel
Declaration of Consent
Herewith I agree that my thesis will be made available through the library of the Computer
Science Department.
Saarbrücken, April 27, 2010
Sylvia Kümmelivv
Abstract
This thesis introduces a framework for separating two speech sources in non-ideal, reverberant
environments. The source separation architecture tries to mimic the extraordinary abilities of
the human auditory system when performing source separation. A movable human dummy head
residinginanormalofficeroomisusedtomodeltheconditionshumansexperiencewhenlistening
to complex auditory scenes.
This thesis first investigates how the orthogonality of speech sources in the time-frequency
domain drops with different reverberation times of the environment and shows that separation
schemes based on ideal binary time-frequency-masks are suitable to perform source
also under humanoid reverberant conditions.
Prior to separating the sources, the movable human dummy head analyzes the auditory scene
and estimates the positions of the sources and the fundamental frequency tracks. The source
localization is implemented using an iterative approach based on the interaural time differences
between the two ears and achieves a localization blur of less than three degrees in the azimuth
plane.
The source separation architecture implemented in this thesis extracts the orthogonal time-
frequency points of the speech mixtures. It combines the positive features of the STFT with the
positive features of the cochleagram representation. The overall goal of the source separation is
to find the ideal STFT-mask. The core source separation process however is based on the analysis
of the corresponding region in an additionally computed cochleagram, which shows more reliable
Interaural Time Difference (ITD) estimations that are used for separation.
Several algorithms based on the ITD and the fundamental frequency of the target source are
evaluated for their source separation capabilities. To enhance the separation capabilities of the
singlealgorithms, theresultsofthedifferentalgorithmsarecombinedtocomputeafinalestimate.
In this way SIR gains of approximately 30 dB for two source scenarios are achieved. For three
source scenarios SIR gains of up to 16 dB are attained. Compared to the standard binaural signal
processing approaches like DUET and Fixed Beamforming the presented approach achieves up
to 29 dB SIR gain.vi
Zusammenfassung
Diese Dissertation beschreibt ein Framework zur Separation zweier Quellen in nicht-idealen,
echobehafteten Umgebungen. Die Architektur zur Quellenseparation orientiert sich dabei an den
außergewöhnlichen Separationsfähigkeiten des menschlichen Gehörs. Um die Bedingungen eines
Menschen in einer komplexen auditiven Szene zu imitieren, wird ein beweglicher, menschlicher
Kunstkopf genutzt, der sich in einem üblichen Büroraum befindet.
IneinemerstenSchrittanalysiertdieseDissertation,inwieferndieOrthogonalitätvonSprachsig-
nalen im Zeit-Frequenz-Bereich mit unterschiedlichen Nachhallzeiten abnimmt. Trotz der Or-
thogonalitätsabnahme sind Separationsansätze basierend auf idealen binären Masken geeignet
um eine Trennung von Sprachsignalen auch unter menschlichen, echobehafteten Bedingungen zu
realisieren.
BevordieQuellengetrenntwerden, analysiertderbeweglicheKunstkopfdieauditiveSzeneund
schätzt die Positionen der einzelnen Quellen und den Verlauf der Grundfrequenz der Sprecher ab.
Die Quellenlokalisation wird durch einen iterativen Ansatz basierend auf den Zeitunterschieden
zwischen beiden Ohren verwirklicht und erreicht eine Lokalisierungsgenauigkeit von weniger als
drei Grad in der Azimuth-Ebene.
Die Quellenseparationsarchitektur die in dieser Arbeit implementiert wird, extrahiert die or-
thogonalen Zeit-Frequenz-Punkte der Sprachmixturen. Dazu werden die positiven Eigenschaften
der STFT mit den positiven Eigenschaften des Cochleagrams kombiniert. Ziel ist es, die ide-
ale STFT-Maske zu finden. Die eigentliche Quellentrennung basiert jedoch auf der Analyse der
entsprechenden Region eines zusätzlich berechneten Cochleagrams. Auf diese Weise wird eine
weitaus verlässlichere Auswertung der Zeitunterschiede zwischen den beiden Ohren verwirklicht.
Mehrere Algorithmen basierend auf den interauralen Zeitunterschieden und der Grundfre-
quenz der Zielquelle werden bezüglich ihrer Separationsfähigkeiten evaluiert. Um die Tren-
nungsmöglichkeiten der einzelnen Algorithmen zu erhöhen, werden die einzelnen Ergebnisse
miteinander verknüpft um eine finale Abschätzung zu gewinnen. Auf diese Weise können SIR
Gewinne von ungefähr 30 dB für Szenarien mit zwei Quellen erzielt werden. Für Szenarien mit
drei Quellen werden Gewinne von bis zu 16 dB erzielt. Verglichen mit binauralen Standardver-
fahren zur Quellentrennung wie DUET oder Fixed Beamforming, gewinnt der vorgestellte Ansatz
bis zu 29 dB SIR.vii
Detaillierte Zusammenfassung
Diese Dissertation beschreibt ein Framework zur Separation zweier Quellen in nicht-idealen,
echobehafteten Umgebungen. Die Architektur zur Quellenseparation orientiert sich dabei an den
außergewöhnlichen Separationsfähigkeiten des menschlichen Gehörs. Um die Bedingungen eines
Menschen in einer komplexen auditiven Szene zu imitieren, wird ein beweglicher, menschlicher
Kunstkopf genutzt, der sich in einem üblichen Büroraum befindet. Auditive Szenen werden
mithilfe eines normalen 7.1 Lautsprecher-Systems erzeugt.
Orthogonalität von Sprachsignalen in echobehafteten, humanoiden Szenarien
Ein oft genanntes Ziel von Quellenseparationsarchitekturen ist das Finden der idealen binären
Zeit-Frequenz-Maske: Jeder Eintrag der Zeit-Frequenz-Maske wird genau dann auf eins gesetzt,
wenn die Energie der Zielquelle in diesem Bin größer als die interferierenden Energien ist.
Das Konzept der binären Maske basiert auf der annähernden Orthogonalität von Sprachsig-
nalen in der Zeit-Frequenz-Ebene, welche für echofreie Sprachsignale nachgewiesen ist. Um
das Konzept der binären Masken auch in realen Szenarien wie etwa dem humanoiden Auf-
bau in diesem Projekt zu nutzen, untersucht diese Dissertation wie sich die Orthogonalität
von Sprachsignalen unter verschiedenen echobehafteten Bedingungen verändert und evaluiert,
ob sich solche Separationsalgorithmen auch dazu eignen, eine Trennung unter echobehafteten,
humanoiden Bedingungen zu erzielen.
Echos und die Filtereigenschaften des menschlichen Kopfes beeinflussen die Orthogonalität von
Sprachsignalen in der Zeit-Frequenz Domäne. Das Signal-Interferenz-Verhältnis (SIR) nimmt für
echobehaftete, humanoide Szenarien mit zwei Quellen um ca. 5 dB ab. Nichtsdestotrotz erreicht
das Konzept der idealen binären Maske eine ausreichende Qualität der separierten Sprachsignale
um auch in echobehafteten, humanoiden Szenarien anwendbar zu bleiben.
Auditive Szenenanalyse
Wenn Menschen eine auditive Szene betreten, analysieren sie automatisch die Umgebung um
ihnen und schätzen Parameter wie die Anzahl und die Positionen, sowie den Verlauf der Grund-
frequenz der klangerzeugenden Quellen ab. Die Quellenseparationsarchitektur dieser Disserta-
tion versucht diese kognitiven Fähigkeiten des menschlichen Gehirns zu imitieren. Bevor die
Quellen getrennt werden, analysiert der menschliche Kunstkopf die auditive Szene und ermittelt
die Anzahl und Positionen der Quellen und die Grundfrequenzverläufe der Sprachquellen. Diese
Parameter werden dann genutzt um die folgende Quellentrennung zu verbessern.
Ein neuer Lokalisierungsansatz nimmt an, dass die Klangquellen auf einem Kreis um den
Hörer angeordnet sind und zeigt bessere Ergebnisse als die Standardverfahren zur humanoiden
Quellenlokalisation wie die Woodworth Formel und der Freifeldansatz. Zusätzlich wird ein
Lokalisierungsansatz basierend auf einer approximierten HRTF vorgestellt und ausgewertet.viii
Iterative Varianten verbessern