Probleme pratique de statistique n° pps065 Arbres genomiques

icon

6

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

6

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Niveau: Supérieur, Master, Bac+5
Probleme pratique de statistique n° pps065 Arbres genomiques Anamaria Necs¸ulea (M2 - EEB - 2005) 10 mai 2008 La presence ou l'absence de 3307 familles de genes proteiques ho- mologues est compilee dans le genomes de 33 organismes dont 27 bacteries. Sur la marge espece de ce tableau, on possede des mesures de dimensions et un arbre phylogenetique. Des donnees originales et des questions ouvertes proposees par Anamaria Necs¸ulea (M2 - EEB - 2005).. Table des matieres 1 Description du probleme 2 2 Donnees 2 3 Questions 5 4 References 6 5 Liens 6 1

  • differences entre les taux devolution des sequences sur la topologie de l'arbre phylogenetique

  • contenu en genes

  • arbre des especes

  • similarites observees entre les sequences

  • description du probleme

  • innovation impor- tante dans la phylogenie moleculaire

  • idee de l'exhaustivite de la base cog

  • donnees


Voir icon arrow

Publié par

Nombre de lectures

20

Langue

Français

pps065 Probl`emepratiquedestatistiquen Arbresg´enomiques
AnamariaNecs¸ulea(M2-EEB-2005) 10mai2008
Lapre´senceoulabsencede3307famillesdege`nesprot´eiquesho-mologuesestcompile´edansleg´enomesde33organismesdont27 bacte´ries.Surlamargeespe`cedecetableau,onposse`dedesmesures dedimensionsetunarbrephylog´en´etique.Desdonne´esoriginaleset desquestionsouvertespropos´eesparAnamariaNecs¸ulea(M2-EEB - 2005)..
Tabledesmatie`res 1Descriptionduprobl`eme 2Donne´es 3 Questions 4Re´fe´rences 5 Liens
1
2 2 5 6 6
AnamariaNec¸sulea(M2-EEB-2005)
1Descriptionduproble`me Leprincipalobjectifdelaphylog´eniemol´eculaireestdereconstituerlage´-ne´alogiedesespe`cese´tudie´es,ensebasantsurlessimilarite´sobserv´eesentreles s´equences(nucle´iquesouprot´eiques)dumarqueurmole´culairechoisi.Toutefois, linterventiondesphe´nome`nescommeletransferthorizontal,laduplicationdes ge`nesoulapre´sencedesvitessesd´evolutiondi´erentesentrelesse´quencespeut rendrecetobjectifintangible.Ler´esultatestalorsplutoˆtunarbredesge`nesquelarbredesespe`cesquelonrecherche. Enpartantdecetteobservation,certainsauteursontpropos´edesapproches phylog´enetiquesbase´essurlacomparaisondesg´enomesentiers([1],[2]).Ace jour,plusde200g´enomescomple`tementsequence´setannote´sonte´te´publi´es, do`ulafaisabilite´decetteme´thode. Pourdonnerunedistanceentredeuxg´enomes,ilfautdabordd´eterminer lesgroupesdeg`enesorthologues(cesta`direlesg`enesquisontd´eriv´esdun mˆemeancˆetrecommunparspe´ciation)pre´sentschezlesorganismesquelon souhaitee´tudier.Larecherchedorthologuessefaitsurlabasedelasimilarit´e desse´quences.Ilexisteplusieursbanquesdedonn´eesdege`neshomologues(qui proviennentdunmeˆmeancˆetrecommun),quipeuventsimpliercetterecherche 1 23 (HOBACGEN,HOGENOM,COG).Ensuite,unemesuredesimilarite´entre deuxesp`ecespeuteˆtred´enie`apartirdunombredege`nesorthologuesquelles ont en commun.
Ilparaˆıtvraisemblablequelimpactdes´eve´nementsdeduplicationoudes di´erencesentrelestauxd´evolutiondesse´quencessurlatopologiedelarbre phylog´ene´tiquesoitdiminue´aveccetteapproche.Unefoislesorthologuesde´-nis,lam´ethodenutilisepluslessimilarite´sentrelesse´quencespourde´nirles distancesentrelesdie´rentsorganismes.Onpeuttoutefoissedemanderjusqua` quelpointonpeutreconstituerlhistoiree´volutivedesorganismesenanalysant lecontenueng`enesdeleurge´nomes.Est-cequecetteapprochepermetdediscri-minerdesorganismesquisonttr`esproches,aussibienquelefontlesme´thodes classiquesdephylog´eniemol´eculaire?Est-cequelleestsensiblea`latailledes ge´nomes?
Laconstructiondarbresg´enomiquessembleeˆtre tantedanslaphyloge´niemole´culaire,maislavalidite´ resteencore`aeˆtreconrm´ee.
une innovation impor-de ce type d’approche
2Donn´ees Latotalite´desdonne´esseretrouventdanslechierpps065.rda.
1 http 2 http 3 http
://pbil.univ-lyon1.fr/databases/hobacgen.html ://pbil.univ-lyon1.fr/databases/hogenom.html ://www.ncbi.nlm.nih.gov/COG/
Logiciel R version Maintenance :
2.7.0(2008-04-22)pps065.rnwPage2/6Compile´le2008-05-10 S. Penel, URL :http://pbil.univ-lyon1.fr/R/pps/pps065.pdf
AnamariaNecs¸ulea(M2-EEB-2005)
load(url("http://pbil.univ-lyon1.fr/R/donnees/pps065.rda")) names(pps065) [1] "COGs""descr" "orga""tree"
Lesdonne´esonte´t´eacquises`apartirdelaversioninitiale,datantde2003, de la banqueCOG(Clusters of Orthologous Groups) [3]. Cette banque contient 3307famillesdeg`enesprote´iqueshomologues. La composantedescrcontient pour chacune de ces familles la description desprote´inesquellesencodent.
length(pps065$descr) [1] 3307 pps065$descr[1:10] [1] "[H]_COG0001_Glutamate-1-semialdehyde_aminotransferase" [2] "[E]_COG0002_Acetylglutamate_semialdehyde_dehydrogenase" [3] "[D]_COG0003_Predicted_ATPase_involved_in_chromosome_partitioning" [4] "[P]_COG0004_Ammonia_permeases" [5] "[F]_COG0005_Purine_nucleoside_phosphorylase" [6] "[E]_COG0006_Xaa-Pro_aminopeptidase" [7] "[H]_COG0007_Uroporphyrinogen-III_methylase" [8] "[J]_COG0008_Glutamyl-_and_glutaminyl-tRNA_synthetases" [9] "[J]_COG0009_Putative_translation_factor_(SUA5)" [10] "[E]_COG0010_Arginase/agmatinase/formimionoglutamate_hydrolase,_arginase_family"
Nousavonsd´ecid´ede´tudierici33organismes,dont25bacte´ries,1eucaryote et7arch´ees.PourchacundentrecesorganismesetpourchaquefamilledeCOG, nousavonsnot´elapr´esenceoulabsence(cod´eeen0et1)desg`enesappartenant a`cettefamilledanslege´nome´etudi´e.Ici,nousavonsignor´elefaitqueplusieurs copiesdumˆemeg`enepeuventeˆtrepre´sentesdanslemˆemeg´enome.Cesdonn´es sontpre´sent´eesdanslacomposanteCOGs, sous la forme d’un tableau de 33 lignes et 3307 colonnes (avec des noms des lignes et des colonnes).
dim(pps065$COGs) [1] 333307 pps065$COGs[1:10, 1:8] COG0001 COG0002 COG0003 Vch 1 1 0 Eco 1 1 0 Buc 0 1 0 Hin 0 0 0 Pae 1 1 0 Nme 1 1 0 Xfa 1 1 0 Rpr 0 0 0 Cje 1 1 0 Hpy 1 0 0
COG0004 0 1 0 0 1 1 1 0 0 0
COG0005 0 1 0 0 1 0 1 0 0 0
COG0006 1 1 0 1 1 1 1 1 1 1
COG0007 1 1 1 0 1 1 1 0 0 0
COG0008 1 1 1 1 1 1 1 1 1 1
On dispose aussi dans la composanteorgad’un tableau contenant, pour chaque organisme : labbre´viationutilise´epourlede´signer; lesp`ece; pps065$orga[, 1:2] Abbr. Species 1 VchVibrio cholerae 2 EcoEscherichia coli 3 BucBuchnera_sp 4 HinHaemophilus influenzae 5 PaePseudomonas aeruginosa 6 NmeNeisseria meningitidis 7 XfaXylella fastidiosa 8 RprRickettsia prowazekii 9 CjeCampylobacter jejuni 10 HpyHelicobacter pylori
Logiciel R version Maintenance :
2.7.0(2008-04-22)pps065.rnwPage3/6Compile´le2008-05-10 S. Penel, URL :http://pbil.univ-lyon1.fr/R/pps/pps065.pdf
Voir icon more
Alternate Text