Université de la Méditerranée Aix-Marseille II Faculté des sciences de Luminy
oN attribué par la bibliothèque |_|_|_|_|_|_|_|_|_|_|
THESE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITE DE LA MEDITERRANEE
Discipline : BIOINFORMATIQUE
présentée et soutenue publiquement par
François ENAULT
Le 21 octobre 2005
Titre :
Contribution à la prédiction de la fonction des gènes par l’analyse de leur contexte génomique et de leur co-évolution.
Directeur de thèse :
Jean-Michel CLAVERIE
JURY
M. Jean-Michel CLAVERIE Directeur M. Hervé DARBON Président M. Patrick FORTERRE Rapporteur M. Olivier GASCUEL M. Karsten SUHRE co-Directeur
INTRODUCTION 7 Contexte 1 Les méthodes d'annotation fonctionnelle 8 1.1 Les méthodes par homologie et leurs limites 8 1.2 L'analyse du contexte génomique 9 2 Les trois principales méthodes d'analyse du contexte génomique 11 2.1 Fusion de gènes 11 2.2 Proximité des gènes sur le chromosome 12 2.3 Les profils phylogénétiques 14 3 Les différents types de profils phylogénétiques 17 3.1 Les profils binaires basés sur l'homologie 18 3.2 Les profils binaires ...
Université de la Méditerranée Aix-Marseille II
Faculté des sciences de Luminy
oN attribué par la bibliothèque
|_|_|_|_|_|_|_|_|_|_|
THESE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITE DE LA MEDITERRANEE
Discipline : BIOINFORMATIQUE
présentée et soutenue publiquement par
François ENAULT
Le 21 octobre 2005
Titre :
Contribution à la prédiction de la fonction des gènes par l’analyse de leur contexte
génomique et de leur co-évolution.
Directeur de thèse :
Jean-Michel CLAVERIE
JURY
M. Jean-Michel CLAVERIE Directeur
M. Hervé DARBON Président
M. Patrick FORTERRE Rapporteur
M. Olivier GASCUEL
M. Karsten SUHRE co-Directeur
INTRODUCTION 7
Contexte
1 Les méthodes d'annotation fonctionnelle 8
1.1 Les méthodes par homologie et leurs limites 8
1.2 L'analyse du contexte génomique 9
2 Les trois principales méthodes d'analyse du contexte génomique 11
2.1 Fusion de gènes 11
2.2 Proximité des gènes sur le chromosome 12
2.3 Les profils phylogénétiques 14
3 Les différents types de profils phylogénétiques 17
3.1 Les profils binaires basés sur l'homologie 18
3.2 Les profils binaires basés sur l'orthologie
3.3 Les profils continus basés sur la similarité 20
4 Utiliser les profils pour décrypter les liens entre protéines 21
4.1 Distance entre profils deux à deux 21
4.2 Réseaux fonctionnels de protéines 22
5 Objectifs de la thèse 22
CHAPITRE 1. AMELIORATION DES PROFILS PHYLOGENETIQUES 25
1 Introduction 25
2 Définition des profils et des distances 27
2.1 Construction des profils phylogénétiques 27
2.2 Définition des distances gène à gène testées 28
3 Comparaison des distances et validation 29
3.1 Utilisation d'Ecocyc 29
3.2 Etude de la conservation des différents types de protéines 32
3.3 Choix objectif d'une distance 34
3.4 Le “problème” des paralogues 37
3.5 Comparaison avec la méthode binaire 40
3.6 Vérification basée sur les opérons 41
3.7 Test des plus proches voisins pour différents voisinages 43
4 Méthode d'annotation automatique 44
4.1 MultiFun 44
4.1 Formule 45
4.3 Résultats 46
5 Conclusion 46 CHAPITRE 2. PHYDBAC : UN SERVEUR WEB BASE SUR LES PROFILS
PHYLOGENETIQUES 49
1 Fonctionnement et utilité de Phydbac
1.1 Description 49
1.2 Construction dynamique des profils 50
1.3 Partie pré-calculée sur Escherichia coli50
2 Description de Phydbac à travers un exemple 51
2.1 La membrane des bactéries à Gram négatif51
2.2 Le système tol/pal52
2.3 Description des profils53
2.4 Voisinage des profils54
2.5 Analyse approfondie pour la protéine pal 55
3 Conclusion 57
CHAPITRE 3. PHYDBAC2, UN SERVEUR WEB BASE SUR L’ANALYSE
DU CONTEXTE GENOMIQUE 59
1 Données et langages utilisés
1.1 Données génomiques 59
1.2 Chaîne de traitement automatique60
1.3 Développement de Phydbac60
2 Nouvelles fonctionnalités visuelles 61
2.1 Zoom sur les profils61
2.2 Profils COG61
2.3 Annotation complète63
2.4 Aides à la sélection de protéines 64
2.5 Récupération des profils des meilleurs homologues 64
3 Intégration des trois méthodes de génomiques comparatives 65
3.1 Profil Phylogénétique Consensus (PPC)65
3.2 Co-localisation66
3.3 Lien vers FusionDB68
4. Conclusion 69
CHAPITRE 4. LA SECTION ‘‘PREDICTION DE FONCTION’’ DE PHYDBAC
71
1 Implémentation des trois méthodes génomiques 71
1.1 Profils Phylogénétiques Consensus (P) 71
1.2 Détection des co-localisations (C)73
1.3 Identification des gènes ayant fusionné (F)76
22 Comparaison entre P, C et F et le score final 77
3 Comparaison avec les bases de données existantes 78
4 Prédictions de catégories GO 81
4.1 Description de GO 81
4.2 Procédure d’annotation82
5 L’interface Web à travers un exemple 83
6 Prédiction pour une séquence quelconque 84
6.1 But84
6.2 Méthodes85
6.3 Interface 86
7 Conclusion 86
CHAPITRE 5. APPLICATION AUX VIRUS 89
1 Classification des virus 89
2 Les profils phylogénétiques viraux 90
2.1 Les grands virus à ADN double brin 90
2.2 Profils des gènes « ubiquitaires » de Mimivirus et limite de la méthode 91
2.3 Profils des domaines trouvés dans les séquences virales 93
2.4 Liens entre gènes à partir des distances entre profils de domaines 95
3. Conclusion 96
DISCUSSION ET PERSPECTIVES 99
1 Les profils phylogénétiques
1.1 Nos améliorations 99
1.2 Perspectives pour les profils de gènes de procaryotes 100
2 L’analyse du contexte génomique 102
2.1 Associations entre protéines et scores102
2.2 Prédictions fonctionnelles103
3 Le logiciel PHYDBAC 103
3.1 Première version basée sur les profils 103
3.2 Extension aux autres méthodes génomiques104
3.3 Prédictions fonctionnelles104
3.4 Un outil de référence104
4. Les profils phylogénétiques appliqués aux virus 105
3BIBLIOGRAPHIE 107
ANNEXES : ARTICLES PUBLIES OU EN COURS DE REVISION 115
Article 1 115
Annotation of bacterial genomes using improved phylogenomic profiles 115
Article 2 121
Phydbac (Phylogenommic display of bacterial genes): an interactive resource for
the annotation of bacterial genomes
Article 3 127
Phydbac2 : improved inference of gene function using interactive phylogenomic
profiling and chromosomal location analysis 127
Article 4 133
Phydbac “Gene Function predictor” : a gene annotation tool based on genomic
context analysis
4
Figure 1. Méthode de la Pierre de Rosette...................................................................11
Figure 2. Méthode des clusters de gènes ou des opérons. ...........................................13
Figure 3. Méthode des gènes voisins. ..........................................................................14
Figure 4. Méthode des profils phylogénétiques...........................................................15
Figure 5. Profils phylogénétiques des COGs impliqués dans la mobilité....................16
Figure 6. Méthodes des profils phylogénétiques continus...........................................26
(c)Figure 7. Distances d au sein de la population totale et dans les voies metaboliques.
..............................................................................................................................31
Figure 8. Zoom sur les queues des fonctions de répartition. .......................................31
Figure 9. Nombre de bactéries dans lequel les E. coli sont retrouvés. ........................32
(cwm) Figure 10. Distances d au sein de la population totale et dans les voies
metaboliques. .......................................................................................................34
(cwm) Figure 11. Distances d
(norm)metaboliques calculees pour R . ....................................................................36
(cmw)Figure 12. Relation entre la distance D et d . .........................................................37
Figure 13. Distributions des distances pour les paralogues. ........................................38
Figure 14. Distributions des distances au sein des opérons.42
Figure 15. Comparaison des résultats donnés par différentes méthodes. ....................43
Figure 16. Nombre et qualité des prédictions pour les gènes de MultiFun. ................45
Figure 17. Structure de la membrane des bactéries à Gram négatif . ..........................51
Figure 18. Le système tol/pal dans l’enveloppe d’Escherichia coli. ...........................52
Figure 19. Profils phylogénétiques des protéines composant le système tol/pal.........53
Figure 20. Les profils phylogénétiques de la protéine pal et de ses voisins. ...............54
Figure 21. Annotations de la protéine pal et de ses voisins.........................................55
Figure 22. Arbre non raciné de pal et de ses 11 plus proches voisins. ........................56
Figure 23. Profils basés sur les information de COG. .................................................62
Figure 24. Protéines membres du COG2885 pour protéo-bactérie Gamma................63
Figure 25. Visualisation des profils de phoR d’E. coli et de ses homologues.............65
Figure 26. Affichage type du voisinage d’un gène dans plusieurs espèces.................67
Figure 27. Capture d’écran des résultats de FusionDB pour le COG1080..................68
Figure 28. Description de la méthodologie utilisée dans la section “prédiction de
fonction”. .............................................................................................................72
Figure 29. Taux de succès des différents scores..........................................................77
Figure 30. Comparaison des bases de données............................................................80
Figure 31. Affichage type de la section ‘Prédiction de fonction’................................83
Figure 32. Profils des gènes de Mimivirus ubiquitaires chez les NCLDV..................92
Figure 33. Profils des gènes ubiquitaires de Mimivirus et de leurs domaines.............94
Figure 34. Profils des voisins phylogénétiques de L244 en passant par le COG0085.95
Figure 35. Profils des gènes codant la ribonucléotide réductase dans Mimivirus.......97
5 6
Introduction i
Contexte
Depuis le début des années 90, de multiples programmes de séquençage systématique
ont décrypté de très nombreux génomes. Des méthodes de traitement informatique
sont nécessaires pour interpréter et transformer ce pool de données en connaissances
nouvelles utilisables à leur tour. Un des principaux buts de la bioinformatique
moderne consiste à localiser l'ensemble des séquences codantes (gènes) du génome et
à prédire la fonction des protéines pour lesquelles codent ces gènes. Les protéines
étant les principaux catalyseurs, éléments structuraux, éléments de signalisation et
machin