209
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe en t'inscrivant gratuitement
Découvre YouScribe en t'inscrivant gratuitement
209
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
AVERTISSEMENT
Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.
Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.
Toute contrefaçon, plagiat, reproduction illicite encourt une
poursuite pénale.
➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr
LIENS
Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm Departement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR STMIA
Construction et utilisation
d’une Base de Connaissances
pharmacogenomique
pour l’integration de donnees
et la decouverte de connaissances
THESE
presentee et soutenue publiquement le 10 octobre 2008
pour l’obtention du
Doctorat de l’universite Henri Poincare { Nancy 1
(specialite informatique)
par
Adrien Coulet
Composition du jury
Rapporteurs : Mohand-Sa d Hacid Professeur, Universite Claude Bernard, Lyon 1
Alain Viari Directeur de Recherche, INRIA
Examinateurs : Nacer Boudjlida Professeur, Nancy Universites
Marie-Dominique Devignes Chargee de Recherche, CNRS
Chantal Reynaud Universite Paris-Sud 11
Malika Sma l-Tabbone Ma^ tre de conference, Nancy Universites
Invites : Pascale Benlian Ma^ tre de conference - Praticien hospitalier,
Universite Pierre et Marie Curie, Paris 6
Amedeo Napoli Directeur de Recherche, CNRS
Laboratoire Lorrain de Recherche en Informatique et ses Applications | UMR 7503Mis en page avec la classe thloria.i
RemerciementsiiTable des matières
Table des figures vii
Liste des tableaux xi
Introduction 1
1 Des données aux connaissances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Des connaissances pour de nouvelles connaissances . . . . . . . . . . . . . . . . . . . . 5
3 La pharmacogénomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Le projet GenNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6 Approche et principales contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
7 Plan du manuscrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1 Contexte biologique et applicatif 11
1 Génotype et phénotype . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Transcription et traduction : premières étapes de la définition d’un phénotype . . 11
1.3 Les relations génotype–phénotype . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Les sources de données et les vocabulaires contrôlés relatifs aux relations génotype–
phénotype . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Les variations génomiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Les sources de données relatives aux variations génomiques . . . . . . . . . . . 15
2.3 Hétérogénéité des données relatives aux variations . . . . . . . . . 16
2.4 Les haplotypes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 La pharmacogénomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Les sources de données relatives à la pharmacogénomique . . . . . . . . . . . . 21
4 Intérêt de l’utilisation de connaissances en . . . . . . . . . . . . . 22
iiiiv Table des matières
2 Etat de l’art 23
1 Extraction de Connaissances à partir de Bases de Données – ecbd . . . . . . . . . . . . 23
1.1 Motivation et objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2 Préparation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 Fouille de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.4 Interprétation en unités de connaissances . . . . . . . . . . . . . . . . . . . . . 38
1.5 Réutilisation des unités extraites . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2 Représentation des connaissances et ontologies . . . . . . . . . . . . . . . . . . . . . . 40
2.1 La Représentation des Connaissances par Objets . . . . . . . . . . . . . . . . . 40
2.2 Les Logiques de Descriptions . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Ontologies et Bases de Connaissances . . . . . . . . . . . . . . . . . . . . . . . 44
3 Utilisation des ontologies pour l’intégration de données hétérogènes . . . . . . . . . . . 49
3.1 Les systèmes d’intégration de données . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Problème d’hétérogénéité et intégration sémantique . . . . . . . . . . . . . . . . 52
3.3 Le mapping données–connaissances . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4 Utilisation des ontologies en bioinformatique : intégration de données et plus si
anités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5 Vers une intégration semi-automatique de sources . . . . . . . . . . . . . . . . . 58
4 Extraction de Connaissances guidée par les Connaissances du Domaine – eccd . . . . . 60
4.1 Préparation de données guidée par les connaissances . . . . . . . . . . . . . . . 60
4.2 Fouille de données guidée par les . . . . . . . . . . . . . . . . . 62
4.3 Interprétation guidée par les connaissances . . . . . . . . . . . . . . . . . . . . 64
3 Ontologies pour l’intégration de données en pharmacogénomique 67
1 Construction d’ontologie : méthodologie proposée et mise en œuvre . . . . . . . . . . . 67
1.1 Méthodologie de construction manuelle d’ontologies pour l’intégration de données 68
1.2 Construction d’une ontologie pour les variations génomiques : SNP-Ontology . . 73
1.3 d’une pour la pharmacogénomique : SO-Pharm . . . . . 79
2 Intégration de données guidée par une ontologie . . . . . . . . . . . . . . . . . . . . . . 85
2.1 Description générale de l’approche proposée . . . . . . . . . . . . . . . . . . . 85
2.2 Définition des mappings données–assertions . . . . . . . . . . . . . . . . . . . . 86
2.3 Description de l’interaction wrapper–médiateur . . . . . . . . . . . . . . . . . . 88
2.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3 Expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.1 Intégration de données relatives aux variations génomiques : SNP-Converter . . 90
3.2 de pharmacogénomiques : iSO-Pharm . . . . . . . . . . . . 99
4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101v
4 Extraction de connaissances dans le contexte d’une Base de Connaissances 103
1 Sélection de données guidée par les connaissances du domaine . . . . . . . . . . . . . . 103
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
1.2 Méthode proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
1.3 Expérimentation pour la découverte de relations génotype–phénotype . . . . . . 111
1.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2 Extraction de Connaissances à partir d’une Base de Connaissances – ecbc . . . . . . . . 118
2.1 Description générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.2 Application conjointe des Logiques de Descriptions et de l’Analyse de Concepts
Formels dans le contexte de l’ecbc . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.3 Analyse des Assertions de Rôles – aar . . . . . . . . . . . . . . . . . . . . . . 121
2.4 Expérimentation en pharmacogénomique . . . . . . . . . . . . . . . . . . . . . 130
2.5 Travaux similaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Conclusion et perspectives 151
A Algorithme de recherche desRMN et desRMNR 153
B Constructeurs en ld 155
C Exemple de code OWL 159
D Modèle conceptuel de SO-Pharm 161
E Captures d’écrans de SNP-Converter 163
F Algorithme de parcours d’un graphe d’assertions 167
G Captures d’écrans du plugin de