288
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe en t'inscrivant gratuitement
Découvre YouScribe en t'inscrivant gratuitement
288
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Université Paris IV - Sorbonne
École doctorale V - Concepts et Langages
Technologies du Web Sémantique pour
l’Entreprise 2.0
Thèse
Pour l’obtention du grade de
Docteur de l’Université Paris IV - Sorbonne
Discipline: Informatique
Présentée et soutenue publiquement
Le 9 Juin 2009 par
Alexandre Passant
Défendue devant un jury composé de:
– Fabien L. Gandon, INRIA Sophia-Antipolis, Rapporteur
– Gilles Kassel, Université de Picardie, Rapporteur
– Jean-Pierre Desclés, Université Paris IV - Sorbonne, Directeur
– Philippe Laublet, Paris IV - Sorbonne, Co-directeur
– Ivan Herman, CWI Amsterdam / W3C, Examinateur
– François-Xavier Testard-Vaillant, Électricité de France, Examinateur
|_|_|_|_|_|_|_|_|_|_|
(Numéro d’enregistrement attribué par la bibliothèque)Ce mémoire est mis à disposition sous un contrat Creative Commons "Paternité-
Pas d’Utilisation Commerciale-Pas de Modification 2.0 France". Les détails de
ce contrat sont disponibles à l’adresse suivante : http://creativecommons.
org/licenses/by-nc-nd/2.0/fr/À JulieRésumé
Cette thèse s’inscrit dans le cadre des récents travaux relatifs à la complémentarité entre
Web Sémantique et Web 2.0, deux visions du Web qui ont souvent été considérées, à tort,
comme disjointes. Plus particulièrement, nous nous intéressons à l’utilisation des techno-
logies du Web Sémantique (i.e. langages, modèles, outils et protocoles) dans le contexte de
l’Entreprise 2.0, vision où les outils de plus en plus courants du Web 2.0 (blogs, wikis, ser-
vices de partage de contenus, pratiques de tagging ...) font leur apparition dans les systèmes
d’information organisationnels. Si ces outils facilitent le partage et la collaboration entre
individus, dans l’objectif de faire émerger une Intelligence Collective au sein de telles struc-
tures, ils introduisent de nouvelles problématiques en termes d’exploitation pertinente des
informations produites. D’une part, la diversité des outils utilisés complexifie l’intégration
d’informations provenant de diverses sources (blogs, wikis, flux RSS ...) fragmentées au sein
du réseau d’entreprise. D’autre part, la nature plein-texte des outils utilisés rend délicate la
réutilisation de manière autonome des connaissances ainsi produites, notamment au sein
des wikis qui permettent pourtant l’élaboration de bases de connaissances pérennes. Enfin,
les pratiques de tagging soulèvent différents problèmes en terme de recherche d’informa-
tions, dus notamment à l’ambiguïté et l’hétérogénéité des mots-clés utilisés, ainsi qu’a leur
manque d’organisation.
Afin de répondre à ces différentes problèmes et en reprenant l’acronyme SLATES (Search,
Links, Authoring, Tags, Extension, Signals) utilisé pour identifier l’Entreprise 2.0, nous définis-
sons le paradigme SemSLATES, proposant la mise en place d’une architecture de médiation
sociale et sémantique venant en support d’un ensemble d’outils existants. Cette évolution
implique la définition et l’implémentation de différents composants, aussi bien en termes de
représentation des connaissances que d’architecture logicielle, composants que nous avons
mis en place dans le cadre de cette thèse, en s’appuyant essentiellement sur les technologies
du Web Sémantique via les standards du W3C.
Ainsi, nos travaux ont consisté d’une part en la mise en place d’ontologies formelles,
aussi bien en terme de métadonnées socio-structurelles (afin de représenter les interactions
sociales produites au sein des différents applications utilisées et les contenus issus de ces
interactions) que de métier (afin d’annoter les contenus eux-mêmes). En ce qui
concerne le premier type, nous avons participé activement au projet SIOC – Semantically-
Interlinked Online Communities –, définissant une ontologie permettant de représenter les
activités des communautés en ligne et les contributions associées. En rapport au second
point, nous avons défini un certain nombre d’ontologies de domaine, légères et extensibles,
ireposant sur des modèles déjà existants et adoptés sur le Web, proposant ainsi certaines
bonnes pratiques relatives à la modélisation de telles ontologies. Enfin, afin d’établir un
lien entre ces deux niveaux de représentation, nous avons mis en place le modèle MOAT –
Meaning Of A Tag – permettant de faire le lien entre tags et ressources du Web Sémantique
(classes et instances d’ontologies), dans l’objectif de coupler la souplesse des folksonomies
et la puissance de l’indexation sémantique basée sur des ontologies. Bien qu’indépendants,
l’ensemble de ces modèles s’articule ainsi de manière cohérente afin de prendre en compte
les différentes strates de représentations des connaissances nécessaires à de tels écosystèmes
sémantiques.
Nous avons également mis en place différents composants logiciels permettant la pro-
duction et l’exploitation d’annotations sémantiques de manière intuitive pour les utilisa-
teurs finals et communiquant au travers d’un ensemble de protocoles dédiés. En termes de
production d’annotations, nous avons développé différents services permettant l’export au-
tomatique d’annotations représentées avec SIOC depuis des outils de blogs, wikis et flux
RSS dans ce contexte d’entreprise. Nos travaux se sont également concentrés sur la défi-
nition d’un service de wiki sémantique afin de permettre une constitution collaborative,
ouverte et incrémentale de bases de connaissances formelles reposant sur des ontologies,
sans pour autant confronter les utilisateurs à la complexité des modèles sous-jacents. Nous
avons également proposé différents services innovants venant tirer parti des graphes d’an-
notation produits. C’est ainsi le cas d’un moteur de recherche sémantique que nous avons
mis en place et qui permet de visualiser des informations (agrégées depuis différents outils
d’entreprise) au sujet des instances d’ontologies peuplées depuis les wikis, tout en propo-
sant d’étendre la recherche en considérant l’ensemble des différents graphes d’annotations
disponibles au sein du système. Nous avons également proposé de nouvelles manières de
visualiser ces informations, notamment au travers d’un système de mash-up combinant don-
nées internes au système organisationnel et données RDF publiques et reposant sur une
interface à facettes.
Alors que l’ensemble de nos recherches ont été validés dans un contexte industriel, la
portée de certaines de nos propositions est plus large que ce cadre d’entreprise, et plus géné-
ralement que ce contexte d’Entreprise 2.0. Différents travaux ont ainsi été publiés sous forme
d’ontologies publiques ou de logiciels libres, permettant leur utilisation a grande échelle sur
le Web. Ainsi, ce manuscrit propose, plus globalement, différentes réflexions sur la complé-
mentarité, selon nous nécessaire, entre Web 2.0 et Web Sémantique, pour conduire le Web à
son plus haut potentiel.
Mots-clés :
Web 2.0, Entreprise 2.0, Web Sémantique, Ontologies, Folksonomies, Wikis, SIOC, MOAT,
Linked DataAbstract
This Ph.D. thesis is part of some recent works regarding the complementarity between
the Semantic Web and the Web 2.0, two visions of the Web that have often been conside-
red, wrongly, as disjoints. Especially, our focus is the use of Semantic Web technologies (i.e
languages, models, tools and protocols) in Enterprise 2.0 contexts, a vision in which most
of the commonly used Web 2.0 tools (such as blogs, wikis, content-sharing services, tagging
practices ...) became popular in corporate information systems.
Yet, while these tools can ease the process of information sharing and collaborations
between individuals, with the global aim to create a Collective Intelligence within such
structures, they introduce new issues regarding how to efficiently use the information they
helped to produce. On the one hand, the nature and diversity of the services used makes
the information integration process a complex task, from various sources fragmented in the
corporate network (blogs, wikis, RSS feeds ...). On the other hand, the plain-text nature of
these tools makes also difficult to reuse the created knowledge, especially regarding wikis,
generally used as valuable knowledge bases. Finally, the practice of tagging raises several
problems in terms of information retrieval, especially due to the ambiguity and heteroge-
neity of the tags used, as well as their lack of organization.
In order to solve these different issues and considering the SLATES acronym (Search,
Links, Authoring, Tags, Extension, Signals) used to define the Enterprise 2.0 vision, we de-
fined the SemSLATES paradigm, proposing a so