Méthodes statistiques pour l'analyse de données génomiques ...

icon

60

pages

icon

Catalan

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

60

pages

icon

Catalan

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

´Methodes statistiques
´ ´pour l’analyse de donnees genomiques
Tests multiples en genomique´
Pierre Neuvial
http://neuvial.ensae.net
Laboratoire Statistique et Genome´
´Universite d’Evry-Val-d’Essonne, UMR CNRS 8071 - USC INRA
ENSAI — 2010/2011 Tests multiples en genomique´
1 Problemes` de tests multiples
Exemples d’applications
Cadre statistique et notations
2 ´ ´Proprietes asymptotiques du FDP
Cadre d’analyse
Loi asymptotique du FDP et loi des p-valeurs en 0
Loi du FDP et loi des p-v en 1
3 ´ ´ ´Interpretation des resultats d’analyse differentielle
Enrichissement d’ensembles de genes`
´Tests multivaries sur des graphes Problemes` de tests multiples Exemples d’applications
Tests multiples en genomique´
1 `Problemes de tests multiples
Exemples d’applications
Cadre statistique et notations
2 ´ ´Proprietes asymptotiques du FDP
Cadre d’analyse
Loi asymptotique du FDP et loi des p-valeurs en 0
Loi du FDP et loi des p-v en 1
3 Interpretation´ des resultats´ d’analyse differentielle´
Enrichissement d’ensembles de genes`
Tests multivaries´ sur des graphes
P. Neuvial (Statistique et Genome)´ Methodes´ stat. pour donnees´ genomiques´ ENSAI — 2010/2011 94 / 179 Problemes` de tests multiples Exemples d’applications
Exemple canonique : analyse differentielle´ de
donnees´ d’expression
´ ´Matrice de donnees d’expression (donnees de Golub)
Niveaux d’expression de m = 3051 genes` pour n = 38 echantillons´ de
deux types de leucemie´ :
AML Acute Myeloblastic Leukemia n = 111
ALL ...
Voir icon arrow

Publié par

Nombre de lectures

259

Langue

Catalan

Poids de l'ouvrage

1 Mo

M´ethodesstatistiques pourlanalysededonne´esg´enomiques Testsmultipleseng´enomique
Pierre Neuvial http://neuvial.ensae.net
LaboratoireStatistiqueetG´enome Universit´edEvry-Val-dEssonne,UMRCNRS8071-USCINRA
ENSAI — 2010/2011
Testsmultipleseng´enomique
1
2
3
Probl`emesdetestsmultiples Exemples d’applications Cadre statistique et notations
Proprie´ te´ s asymptotiques du FDP Cadre d’analyse Loi asymptotique du FDP et loi des p -valeurs en 0 Loi asymptotique du FDP et loi des p -valeurs en 1
Interpr´etationdesr´esultatsdanalysediffe´rentielle Enrichissement d’ensembles de ge` nes Testsmultivari´essurdesgraphes
iquetist(Stavialteoh)e´Mnemote´Gnndourpot.tassdeEseuqimone´gsee´PueN.SNIA210/0021149/179
Tests multiples en ge´ nomique
1
Probl`emesdetestsmultiples Exemples d’applications Cadre statistique et notations
2
Proprie´ te´ s asymptotiques du FDP Cadre d’analyse Loi asymptotique du FDP et loi des p -valeurs en 0 Loi asymptotique du FDP et loi des p -valeurs en 1
3
Interpre´tationdesr´esultatsdanalysediff´erentielle Enrichissement d’ensembles de ge` nes Testsmultivari´essurdesgraphes
deeseml`obPrsnoiitlpsexEettsmsluapplicatemplesd
lborPetsdme`eltmutsessnoilppitaclempasdleipxesEueiqG´etta(Ssttiohtessedmone´M)eN.ueivlaP02/0102971/5911
Objectif Trouver des genes ` diffe´ rentiellement exprime´ s entre AML et ALL
Matricededonn´eesdexpression(donne´esdeGolub) Niveaux d’expression de m = 3051 ge` nes pour n = 38 e´ chantillons de deux types de leuce´ mie : AML Acute Myeloblastic Leukemia n 1 = 11 ALL Acute Lymphoblastic Leukemia n 2 = 27
Exemple canonique : analyse diffe´ rentielle de donn´eesdexpression
opruat.te´seodnnomiqg´enNSAIuesE
atistiquuvial(St.PeNou.ponrdesodatstM)emhte´Gteeone´011910/2I20ENSAuqseonimgse´´nee
Matricededonn´eesdexpression(donne´esdeGolub) Niveaux d’expression de m = 3051g`enespour n = 38 e´ chantillons de deuxtypesdeleuc´emie: AML Acute Myeloblastic Leukemia n 1 = 11 ALL Acute Lymphoblastic Leukemia n 2 = 27
Objectif Trouver des ge` nes diff´erentiellementexprime´s entre AML et ALL
Exemplecanonique:analysediff´erentiellede donn´eesdexpression
971/5aticnsiodesplapmelpsexEitlpmslutestesdel`emProb
sn`lborPetedsemeultistsmExemplesdpalpsetaoilpcial(Seuvistiqtati´Gneeute´Mtemo)eN.PsENSAI2010/2011691/97
Le recours a la the´ orie des tests statistiques ` Objectif:identierlesge`nesdontlexpressiondiff`ereentredeuxgroupes
Proble`messpe´ciquesauxdonn´eesdegrandedimension n petit : le choix de la statistique de test est crucial m grand:probl`emesdetestsmultiples
Approchege`neparg`ene d´enitiondunestatistiquedetest exemple : diffe´ rence entre les moyennes d’expression des deux groupes controˆledeserreursdetypeI(fauxpositifs)et/ouII(fauxn´egatifs)
dehotasspot.doure´nn´gsemoneeuqi
Testsdhypoth`esessimples:vocabulaire Notationspourl´etudedelexpressiondiff´erentielledugene g `
lorsque H 0 est vraie ( g nestpasdiffe´rentiellementexprim´e) risque α erreur de type I probabilit ´e de rejeter H 0 1 α niveau probabilit ´e d’accepter H 0
Notions de base H 0 hypoth`esenulleabsencedexpressiondiffe´rentiellede g H 1 hypoth`esealternativeexpressiondiff´erentiellede g T n ( X ) statistiquedetestmesureempiriquedelexpressiondiff´erentielle p probabilite´ critique probabilit ´e que T n ( X ) soitsup´erieure T n ( X g ) sous l’hypothe` se H 0
lorsque H 0 est fausse ( g estdiff´erentiellementexprim´e) risque β erreur de type II probabilite´ d’accepter H 0 1 β puissance du test probabilite´ de rejeter H 0
200/01279/19711qimone´gIASNEseupourtat.´eesdonn)e´Mnemoedssteoheuqi´GteatS(tsiteu.NalviPpalpcitamelpsedionsme`ledseborPpltiExesstteulsm
siituqeeai(ltStaP.Neuv91/82/100201ASIesENmiqu´enoeesg´nnodruop.tatsseodth´e)Mmeno´etG
Exemple de test parame´ trique : test de Student Ide´ e : supposer les deux classes gaussiennes, et comparer les moyennes Statistiquedetest:diff´erencedesmoyennesrapport´ee`ala variabilite´ Sous H 0 , T n suit une loi de Student, connue
l
Statistiques de test usuelles
ui
Exemple de test non parame´ trique : test de Wilcoxon Id´ee:rassemblerlesdeux´echantillons,etrangerlevecteur obtenu Statistique de test : somme des rangs d’une des classes Sous H 0 , T n suit une loi multinomiale de parame` tres connus
t7l1ps9exEmelpsedapplicationsrPl`obesemtedesmst
Probl`emesdetestsmultiples Exemples d’applications Mise en e´ vidence du proble` me Controˆ le le niveau individuel des tests est insuffisant On effectue un test par ge` ne m p -values ( p 1 , . . . p m ) En seuillant au niveau α , on attend m α faux positifs le nombre d’erreurs de´ pend du nombre de tests . Ne´ cessite´ d’ajuster le seuil en fonction de m pourrendrelere´sultatinterpr´etable. Proc´eduresdetestsmultiples De´nitiondunrisquequid´ependdelensemble deshypoth`eses Constructiondunalgorithmepermettantdecontrˆolercerisque On conside` rera ici des algorithmes reposant sur les p -values individuelles P.Neuvial(StatistiqueetGe´nome)Me´thodesstat.pourdonn´eesge´nomiques ENSAI — 2010/2011 99 / 179
l`emProbicationsxEselpmedselppadeesstteulsmplti
Applicationsautresquelanalysediff´erentielle
97
Astronomie
(images : C. Genovese)
Autres domaines d’application IRM fonctionnelle
´ ´ Analyse de donnees genomiques Inf´ncedere´seauxge´n´etiques`apartirdecorr´elations ere Spectrom´etriedemasse Analyse diff ´ ntielle de profils de nombre de copies d’ADN ere Corr´elationentrenombredecopiesdADNetexpression
een´onrdou.patstsedohte´M)emone´00/1011110/2I20NEASuqseonimgse´NeP.iauvtS(lsitauqitGtee
(ltStasiituqeeGt´enome)M´ethodesNeP.iauv012/I02101/1011
1
Probl`emesdetestsmultiples Exemples d’applications Cadre statistique et notations
2
Proprie´ te´ s asymptotiques du FDP Cadre d’analyse Loi asymptotique du FDP et loi des p -valeurs en 0 Loi asymptotique du FDP et loi des p -valeurs en 1
79
Tests multiples en genomique ´
3
Interpr´etationdesresultatsdanalysediff´erentielle ´ Enrichissement d’ensembles d ` e genes Tests multivarie´ s sur des graphes
uop.tatsee´nnodrmino´esgSAENesqusedseme`llumstsetobPreutetsqiitnoonatesCatipltatidres
Voir icon more
Alternate Text