154
pages
English
Documents
2011
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
154
pages
English
Documents
2011
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
Publié par
Publié le
01 janvier 2011
Nombre de lectures
28
Langue
English
Poids de l'ouvrage
5 Mo
Publié par
Publié le
01 janvier 2011
Nombre de lectures
28
Langue
English
Poids de l'ouvrage
5 Mo
Web Image Context Extraction:
Methods and Evaluation
Inaugural-Dissertation
zur
Erlangung des Doktorgrades der
Mathematisch-Naturwissenschaftlichen Fakultat¨
der Heinrich-Heine-Universita¨t Du¨sseldorf
vorgelegt von
Sadet Alcic
aus Leskovac
Oktober 2011Aus dem Institut fur Informatik¨
der Heinrich-Heine Universita¨t Du¨sseldorf
Gedruckt mit der Genehmigung der
Mathematisch-Naturwissenschaftlichen Fakulta¨t der
Heinrich-Heine-Universit¨at Du¨sseldorf
Referent: Prof. Dr. Stefan Conrad
Koreferent: Prof. Dr. Michael Sch¨ottner
Tag der mu¨ndlichen Pru¨fung: 24.11.2011Dedicated to
Im`eneAcknowledgements
This thesis is the outcome of my four years Ph.D. research at the Databases and
InformationSystemsInstituteoftheDepartmentofComputerScienceattheHeinrich-
Heine-University of Duesseldorf.
First, I would like to thank my supervisor Prof. Dr. Stefan Conrad for all his time,
support and feedback. It was a great pleasure for me to work under his supervisi-
on. Stefan has the ability to transform a vague formulated problem into a clear and
solvable question, and I always left our meetings feeling more optimistic then when I
entered them. I also want to thank the second reviewer of this thesis, Prof. Dr. Mi-
chael Sch¨ottner, for his interest in my work and willingness to be the second referee.
My special compliments go my former colleagues at the database group Johanna
Vompras andKatrinZaiß. IthankJohannaforherguidanceespeciallyatthebeginning
of my research, and Katrin for her patient listening, the many discussions and the
gratifying atmosphere she created during the time sharing her office with me.
I extend my compliments to my colleagues Ludmila Himmelspach, Juwu Zhao and
Tim Schluter¨ . IacknowledgeLudmilaandJiwufortheenlighteningdiscussionsrelated
to clustering, and Tim for several support and feedback and his gift to cheer me,
especially in the cloudy days.
I am also grateful to my new colleagues Magdalena Rischka, Thomas Scholz and
Thi Thuy Anh Nguyen for their help and feedback during the last writing phase.
Furthermore, I want to acknowledge Guido K¨onigstein, Sabine Freese and Marga
Potthoff for all their administrative assistance. I especially thank Guido for all the
time he spend with me trying to fix any technical problems, which occurred during the
time at the databases institute.
I am deeply grateful to my parents for teaching me the basic principles of life. I
thank them for their continuous support and for giving me encouragement to tackle
any problem I am faced with.
Above all, I want to thank my wife Im`ene for creating the best circumstances
for a confident work and for enriching my life with love, security, understanding and
warmness.
Du¨sseldorf, Germany
October, 2011 Sadet AlcicAbstract
Images on the Web come in hand with valuable textual content on hosting web pages
that can be exploited to generate image annotations. However, web documents are
usually composed of contents to multiple topics and the context of an image makes
only a small portion of the full text of the web page. In order to get qualitative
descriptions, methods that are able to extract the image context become essential.
Existing solutions in the literature reach from simple full text extractors to intelli-
gent approaches that perform a page segmentation as a preprocessing step. To be able
to evaluate and compare the different methods, we introduce an evaluation framework
that includes a ground truth dataset consisting of twelve different testing collections.
The accordance between extraction output and ground truth is estimated using newly
adapted evaluation measures that are a part of the framework.
Most of the existing methods are based on simple heuristics and hence in general
can not deal with the variety of different web page designs. Our first approach is
therefore more adaptive: it arranges first the smallest content units of a web page to
possible context candidates (articles) and assigns then to each image of the web page
the most suitable candidate. This approach is extended by concepts that are able to
handle the two-dimensional HTML-tables that are frequently used as layout elements.
Another contribution is an image context extraction method that is based on page
segmentationasapreprocessingstep. Byseparatingawebpageintoblocksofcoherent
topics, the images just can be associated with the complete text of the common block.
In an extended analysis, we investigate different approaches to solve the page segmen-
tation task by web content clustering. Different representations for web contents are
combined with various clustering approaches and evaluated. The gained experience is
used to build a novel clustering-based context extraction method.
Both methods achieve very good results on almost all test collections and can thus
be applied as a preprocessing step in applications that can benefit from images with
descriptions.Zusammenfassung
Digitale Bilder im Web treten in Webseiten gemeinsam mit wertvollen Texten auf, die
zur Generierung von Bildbeschreibungen genutzt werden ko¨nnen. Leider besteht eine
Webseite in der Regel aus mehreren Inhalten zu unterschiedlichen Themen, und der
KontexteineseinzigenBildesstelltnureinenBruchteildesGesamtinhaltsderWebseite
dar. Um dennoch qualitative Beschreibungen zu erhalten, ist es notwendig Methoden
zuentwickeln,mitdenenderKontexteinesBildesauseinerWebseiteextrahiertwerden
kann.
Bestehende Lo¨sungen aus der Literatur reichen von einfachen Extraktoren, die den
gesamten Text einer Webseite u¨bernehmen, bishin zu intelligenteren Methoden, die
als Vorverarbeitungsschritt eine Einteilung der Webseite in einzelne Bereiche vorneh-
men. Um die Qualita¨t der einzelnen Verfahren ermitteln und vergleichen zu k¨onnen,
wurde im Rahmen dieser Arbeit ein Evaluationsframework entwickelt, das eine eigens
erzeugte Testdatenmenge (Gold Standard) bestehend aus zwo¨lf Kollektionen umfasst.
¨Zur Bestimmung der Ubereinstimmung zwischen der Ausgabe der Extraktionsverfah-
ren und dem Gold Standard wurden geeignete Evaluationsmaße entwickelt und in das
Framework integriert.
Die meisten existierenden Extraktionsverfahren basieren auf einfache Heuristiken
und ko¨nnen daher im Allgemeinen nicht mit der Vielfalt an unterschiedlichen Web-
seitendesigns umgehen. Unser erster Ansatz fasst deshalb zunachst unabhangig vom¨ ¨
Design der Webseite die einzelnen Textinhalte zu mo¨glichen Kontextkandidaten (Ar-
tikeln) zusammen und weist dann einem Bild den geeignetsten Kandidaten zu. Die-
ser Ansatz hat Schwierigkeiten, wenn Tabellen als Layoutelemente verwendet werden
und deshalb wird um Konzepte erweitert, welche auch mit HTML-Tabellen umgehen
k¨onnen.
Ein weiterer Ansatz basiert auf der Webseitenpartitionierung als Vorverarbeitungs-
schritt. Ist eine Webseite erstmal in ihre Teilbereiche unterteilt, kann ein Bild mit dem
in seinem Bereich enthaltenen Text assoziiert werden. Wir untersuchen ausfu¨hrlich
mehrereMoglichkeiten,dieWebseitenpartitionierungdurcheinClusteringderkleinsten¨
Inhalte einer Webseite durchzufu¨hren. Dabei werden verschiedene Darstellungsformen
fur Webinhalte mit unterschiedlichen Clusteringverfahren kombiniert und evaluiert.¨
Mit den aus dieser Analyse gewonnenen Erkentnissen wird ein neues auf Clustering
basierendes Extraktionsverfahren entwickelt.
Beide vorgestellten Ansatze liefern auf fast allen Kollektionen sehr gute Ergeb-¨
nisse und ko¨nnen somit in vielen Applikationen, die Beschreibungen zu Webbildern
benotigen, als Vorverarbeitungsschritt eingesetzt werden.¨