´Methodes statistiques ´ ´pour l’analyse de donnees genomiques Tests multiples en genomique´ Pierre Neuvial http://neuvial.ensae.net Laboratoire Statistique et Genome´ ´Universite d’Evry-Val-d’Essonne, UMR CNRS 8071 - USC INRA ENSAI — 2010/2011Tests multiples en genomique´ 1 Problemes` de tests multiples Exemples d’applications Cadre statistique et notations 2 ´ ´Proprietes asymptotiques du FDP Cadre d’analyse Loi asymptotique du FDP et loi des p-valeurs en 0 Loi du FDP et loi des p-v en 1 3 ´ ´ ´Interpretation des resultats d’analyse differentielle Enrichissement d’ensembles de genes` ´Tests multivaries sur des graphesProblemes` de tests multiples Exemples d’applications Tests multiples en genomique´ 1 `Problemes de tests multiples Exemples d’applications Cadre statistique et notations 2 ´ ´Proprietes asymptotiques du FDP Cadre d’analyse Loi asymptotique du FDP et loi des p-valeurs en 0 Loi du FDP et loi des p-v en 1 3 Interpretation´ des resultats´ d’analyse differentielle´ Enrichissement d’ensembles de genes` Tests multivaries´ sur des graphes P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 94 / 179Problemes` de tests multiples Exemples d’applications Exemple canonique : analyse differentielle´ de donnees´ d’expression ´ ´Matrice de donnees d’expression (donnees de Golub) Niveaux d’expression de m = 3051 genes` pour n = 38 echantillons´ de deux types de leucemie´ : AML Acute Myeloblastic Leukemia n = 111 ALL ...
Probl`emesdetestsmultiples Exemples d’applications Cadre statistique et notations
Proprie´ te´ s asymptotiques du FDP Cadre d’analyse Loi asymptotique du FDP et loi des p -valeurs en 0 Loi asymptotique du FDP et loi des p -valeurs en 1
Interpr´etationdesr´esultatsd’analysediffe´rentielle Enrichissement d’ensembles de ge` nes Testsmultivari´essurdesgraphes
Probl`emesdetestsmultiples Exemples d’applications Cadre statistique et notations
2
Proprie´ te´ s asymptotiques du FDP Cadre d’analyse Loi asymptotique du FDP et loi des p -valeurs en 0 Loi asymptotique du FDP et loi des p -valeurs en 1
3
Interpre´tationdesr´esultatsd’analysediff´erentielle Enrichissement d’ensembles de ge` nes Testsmultivari´essurdesgraphes
Objectif Trouver des genes ` diffe´ rentiellement exprime´ s entre AML et ALL
Matricededonn´eesd’expression(donne´esdeGolub) Niveaux d’expression de m = 3051 ge` nes pour n = 38 e´ chantillons de deux types de leuce´ mie : AML Acute Myeloblastic Leukemia n 1 = 11 ALL Acute Lymphoblastic Leukemia n 2 = 27
Exemple canonique : analyse diffe´ rentielle de donn´eesd’expression
Matricededonn´eesd’expression(donne´esdeGolub) Niveaux d’expression de m = 3051g`enespour n = 38 e´ chantillons de deuxtypesdeleuc´emie: AML Acute Myeloblastic Leukemia n 1 = 11 ALL Acute Lymphoblastic Leukemia n 2 = 27
Objectif Trouver des ge` nes diff´erentiellementexprime´s entre AML et ALL
Le recours a la the´ orie des tests statistiques ` Objectif:identifierlesge`nesdontl’expressiondiff`ereentredeuxgroupes
Proble`messpe´cifiquesauxdonn´eesdegrandedimension n petit : le choix de la statistique de test est crucial m grand:probl`emesdetestsmultiples
Approchege`neparg`ene d´efinitiond’unestatistiquedetest exemple : diffe´ rence entre les moyennes d’expression des deux groupes controˆledeserreursdetypeI(fauxpositifs)et/ouII(fauxn´egatifs)
dehotasspot.doure´nn´gsemoneeuqi
Testsd’hypoth`esessimples:vocabulaire Notationspourl’´etudedel’expressiondiff´erentielledugene g `
lorsque H 0 est vraie ( g n’estpasdiffe´rentiellementexprim´e) risque α erreur de type I probabilit ´e de rejeter H 0 1 − α niveau probabilit ´e d’accepter H 0
Notions de base H 0 hypoth`esenulleabsenced’expressiondiffe´rentiellede g H 1 hypoth`esealternativeexpressiondiff´erentiellede g T n ( X ) statistiquedetestmesureempiriquedel’expressiondiff´erentielle p probabilite´ critique probabilit ´e que T n ( X ) soitsup´erieure T n ( X g ) sous l’hypothe` se H 0
lorsque H 0 est fausse ( g estdiff´erentiellementexprim´e) risque β erreur de type II probabilite´ d’accepter H 0 1 − β puissance du test probabilite´ de rejeter H 0
Exemple de test parame´ trique : test de Student Ide´ e : supposer les deux classes gaussiennes, et comparer les moyennes Statistiquedetest:diff´erencedesmoyennesrapport´ee`ala variabilite´ Sous H 0 , T n suit une loi de Student, connue
l
Statistiques de test usuelles
ui
Exemple de test non parame´ trique : test de Wilcoxon Id´ee:rassemblerlesdeux´echantillons,etrangerlevecteur obtenu Statistique de test : somme des rangs d’une des classes Sous H 0 , T n suit une loi multinomiale de parame` tres connus
t7l1ps9exEmelpsed’applicationsrPl`obesemtedesmst
Probl`emesdetestsmultiples Exemples d’applications Mise en e´ vidence du proble` me Controˆ le le niveau individuel des tests est insuffisant On effectue un test par ge` ne ⇒ m p -values ( p 1 , . . . p m ) En seuillant au niveau α , on attend m α faux positifs ⇒ le nombre d’erreurs de´ pend du nombre de tests . Ne´ cessite´ d’ajuster le seuil en fonction de m pourrendrelere´sultatinterpr´etable. Proc´eduresdetestsmultiples De´finitiond’unrisquequid´ependdel’ ensemble deshypoth`eses Constructiond’unalgorithmepermettantdecontrˆolercerisque On conside` rera ici des algorithmes reposant sur les p -values individuelles P.Neuvial(StatistiqueetGe´nome)Me´thodesstat.pourdonn´eesge´nomiques ENSAI — 2010/2011 99 / 179
l`emProbicationsxEselpme’dselppadeesstteulsmplti
Applicationsautresquel’analysediff´erentielle
97
Astronomie
(images : C. Genovese)
Autres domaines d’application IRM fonctionnelle
´ ´ Analyse de donnees genomiques Inf´ncedere´seauxge´n´etiques`apartirdecorr´elations ere Spectrom´etriedemasse Analyse diff ´ ntielle de profils de nombre de copies d’ADN ere Corr´elationentrenombredecopiesd’ADNetexpression
Probl`emesdetestsmultiples Exemples d’applications Cadre statistique et notations
2
Proprie´ te´ s asymptotiques du FDP Cadre d’analyse Loi asymptotique du FDP et loi des p -valeurs en 0 Loi asymptotique du FDP et loi des p -valeurs en 1
79
Tests multiples en genomique ´
3
Interpr´etationdesresultatsd’analysediff´erentielle ´ Enrichissement d’ensembles d ` e genes Tests multivarie´ s sur des graphes