Université de la Méditerranée Aix-Marseille II Faculté des ...

151

pages

English

Documents

Écrit par
Jean-Michel Claverie

Publié par
Phiem

Lire

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

151

pages

English

Documents

Lire

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Publié par

Phiem

Nombre de lectures

120

Langue

English

Poids de l'ouvrage

9 Mo

Voir

Publié par

Phiem

Nombre de lectures

120

Langue

English

Poids de l'ouvrage

9 Mo

Université de la Méditerranée Aix-Marseille II Faculté des sciences de Luminy oN attribué par la bibliothèque |_|_|_|_|_|_|_|_|_|_| THESE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITE DE LA MEDITERRANEE Discipline : BIOINFORMATIQUE présentée et soutenue publiquement par François ENAULT Le 21 octobre 2005 Titre : Contribution à la prédiction de la fonction des gènes par l’analyse de leur contexte génomique et de leur co-évolution. Directeur de thèse : Jean-Michel CLAVERIE JURY M. Jean-Michel CLAVERIE Directeur M. Hervé DARBON Président M. Patrick FORTERRE Rapporteur M. Olivier GASCUEL M. Karsten SUHRE co-Directeur INTRODUCTION 7 Contexte 1 Les méthodes d'annotation fonctionnelle 8 1.1 Les méthodes par homologie et leurs limites 8 1.2 L'analyse du contexte génomique 9 2 Les trois principales méthodes d'analyse du contexte génomique 11 2.1 Fusion de gènes 11 2.2 Proximité des gènes sur le chromosome 12 2.3 Les profils phylogénétiques 14 3 Les différents types de profils phylogénétiques 17 3.1 Les profils binaires basés sur l'homologie 18 3.2 Les profils binaires basés sur l'orthologie 3.3 Les profils continus basés sur la similarité 20 4 Utiliser les profils pour décrypter les liens entre protéines 21 4.1 Distance entre profils deux à deux 21 4.2 Réseaux fonctionnels de protéines 22 5 Objectifs de la thèse 22 CHAPITRE 1. AMELIORATION DES PROFILS PHYLOGENETIQUES 25 1 Introduction 25 2 Définition des profils et des distances 27 2.1 Construction des profils phylogénétiques 27 2.2 Définition des distances gène à gène testées 28 3 Comparaison des distances et validation 29 3.1 Utilisation d'Ecocyc 29 3.2 Etude de la conservation des différents types de protéines 32 3.3 Choix objectif d'une distance 34 3.4 Le “problème” des paralogues 37 3.5 Comparaison avec la méthode binaire 40 3.6 Vérification basée sur les opérons 41 3.7 Test des plus proches voisins pour différents voisinages 43 4 Méthode d'annotation automatique 44 4.1 MultiFun 44 4.1 Formule 45 4.3 Résultats 46 5 Conclusion 46 CHAPITRE 2. PHYDBAC : UN SERVEUR WEB BASE SUR LES PROFILS PHYLOGENETIQUES 49 1 Fonctionnement et utilité de Phydbac 1.1 Description 49 1.2 Construction dynamique des profils 50 1.3 Partie pré-calculée sur Escherichia coli50 2 Description de Phydbac à travers un exemple 51 2.1 La membrane des bactéries à Gram négatif51 2.2 Le système tol/pal52 2.3 Description des profils53 2.4 Voisinage des profils54 2.5 Analyse approfondie pour la protéine pal 55 3 Conclusion 57 CHAPITRE 3. PHYDBAC2, UN SERVEUR WEB BASE SUR L’ANALYSE DU CONTEXTE GENOMIQUE 59 1 Données et langages utilisés 1.1 Données génomiques 59 1.2 Chaîne de traitement automatique60 1.3 Développement de Phydbac60 2 Nouvelles fonctionnalités visuelles 61 2.1 Zoom sur les profils61 2.2 Profils COG61 2.3 Annotation complète63 2.4 Aides à la sélection de protéines 64 2.5 Récupération des profils des meilleurs homologues 64 3 Intégration des trois méthodes de génomiques comparatives 65 3.1 Profil Phylogénétique Consensus (PPC)65 3.2 Co-localisation66 3.3 Lien vers FusionDB68 4. Conclusion 69 CHAPITRE 4. LA SECTION ‘‘PREDICTION DE FONCTION’’ DE PHYDBAC 71 1 Implémentation des trois méthodes génomiques 71 1.1 Profils Phylogénétiques Consensus (P) 71 1.2 Détection des co-localisations (C)73 1.3 Identification des gènes ayant fusionné (F)76 22 Comparaison entre P, C et F et le score final 77 3 Comparaison avec les bases de données existantes 78 4 Prédictions de catégories GO 81 4.1 Description de GO 81 4.2 Procédure d’annotation82 5 L’interface Web à travers un exemple 83 6 Prédiction pour une séquence quelconque 84 6.1 But84 6.2 Méthodes85 6.3 Interface 86 7 Conclusion 86 CHAPITRE 5. APPLICATION AUX VIRUS 89 1 Classification des virus 89 2 Les profils phylogénétiques viraux 90 2.1 Les grands virus à ADN double brin 90 2.2 Profils des gènes « ubiquitaires » de Mimivirus et limite de la méthode 91 2.3 Profils des domaines trouvés dans les séquences virales 93 2.4 Liens entre gènes à partir des distances entre profils de domaines 95 3. Conclusion 96 DISCUSSION ET PERSPECTIVES 99 1 Les profils phylogénétiques 1.1 Nos améliorations 99 1.2 Perspectives pour les profils de gènes de procaryotes 100 2 L’analyse du contexte génomique 102 2.1 Associations entre protéines et scores102 2.2 Prédictions fonctionnelles103 3 Le logiciel PHYDBAC 103 3.1 Première version basée sur les profils 103 3.2 Extension aux autres méthodes génomiques104 3.3 Prédictions fonctionnelles104 3.4 Un outil de référence104 4. Les profils phylogénétiques appliqués aux virus 105 3BIBLIOGRAPHIE 107 ANNEXES : ARTICLES PUBLIES OU EN COURS DE REVISION 115 Article 1 115 Annotation of bacterial genomes using improved phylogenomic profiles 115 Article 2 121 Phydbac (Phylogenommic display of bacterial genes): an interactive resource for the annotation of bacterial genomes Article 3 127 Phydbac2 : improved inference of gene function using interactive phylogenomic profiling and chromosomal location analysis 127 Article 4 133 Phydbac “Gene Function predictor” : a gene annotation tool based on genomic context analysis 4 Figure 1. Méthode de la Pierre de Rosette...................................................................11 Figure 2. Méthode des clusters de gènes ou des opérons. ...........................................13 Figure 3. Méthode des gènes voisins. ..........................................................................14 Figure 4. Méthode des profils phylogénétiques...........................................................15 Figure 5. Profils phylogénétiques des COGs impliqués dans la mobilité....................16 Figure 6. Méthodes des profils phylogénétiques continus...........................................26 (c)Figure 7. Distances d au sein de la population totale et dans les voies metaboliques. ..............................................................................................................................31 Figure 8. Zoom sur les queues des fonctions de répartition. .......................................31 Figure 9. Nombre de bactéries dans lequel les E. coli sont retrouvés. ........................32 (cwm) Figure 10. Distances d au sein de la population totale et dans les voies metaboliques. .......................................................................................................34 (cwm) Figure 11. Distances d (norm)metaboliques calculees pour R . ....................................................................36 (cmw)Figure 12. Relation entre la distance D et d . .........................................................37 Figure 13. Distributions des distances pour les paralogues. ........................................38 Figure 14. Distributions des distances au sein des opérons.42 Figure 15. Comparaison des résultats donnés par différentes méthodes. ....................43 Figure 16. Nombre et qualité des prédictions pour les gènes de MultiFun. ................45 Figure 17. Structure de la membrane des bactéries à Gram négatif . ..........................51 Figure 18. Le système tol/pal dans l’enveloppe d’Escherichia coli. ...........................52 Figure 19. Profils phylogénétiques des protéines composant le système tol/pal.........53 Figure 20. Les profils phylogénétiques de la protéine pal et de ses voisins. ...............54 Figure 21. Annotations de la protéine pal et de ses voisins.........................................55 Figure 22. Arbre non raciné de pal et de ses 11 plus proches voisins. ........................56 Figure 23. Profils basés sur les information de COG. .................................................62 Figure 24. Protéines membres du COG2885 pour protéo-bactérie Gamma................63 Figure 25. Visualisation des profils de phoR d’E. coli et de ses homologues.............65 Figure 26. Affichage type du voisinage d’un gène dans plusieurs espèces.................67 Figure 27. Capture d’écran des résultats de FusionDB pour le COG1080..................68 Figure 28. Description de la méthodologie utilisée dans la section “prédiction de fonction”. .............................................................................................................72 Figure 29. Taux de succès des différents scores..........................................................77 Figure 30. Comparaison des bases de données............................................................80 Figure 31. Affichage type de la section ‘Prédiction de fonction’................................83 Figure 32. Profils des gènes de Mimivirus ubiquitaires chez les NCLDV..................92 Figure 33. Profils des gènes ubiquitaires de Mimivirus et de leurs domaines.............94 Figure 34. Profils des voisins phylogénétiques de L244 en passant par le COG0085.95 Figure 35. Profils des gènes codant la ribonucléotide réductase dans Mimivirus.......97 5 6 Introduction i Contexte Depuis le début des années 90, de multiples programmes de séquençage systématique ont décrypté de très nombreux génomes. Des méthodes de traitement informatique sont nécessaires pour interpréter et transformer ce pool de données en connaissances nouvelles utilisables à leur tour. Un des principaux buts de la bioinformatique moderne consiste à localiser l'ensemble des séquences codantes (gènes) du génome et à prédire la fonction des protéines pour lesquelles codent ces gènes. Les protéines étant les principaux catalyseurs, éléments structuraux, éléments de signalisation et machin

Voir