249
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe et accède à tout notre catalogue !
Découvre YouScribe et accède à tout notre catalogue !
249
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
oAnnée 2011 N
Thèse
pour obtenir le grade de
DOCTEUR DE L’UNIVERSITE PARIS SUD
Spécialité : Santé Publique
Option : Biostatistiques
Présentée et soutenue publiquement par
elleM Sigrid ROUAM
le 30 mars 2011
Développement d’un indice de séparabilité
adapté aux données de génomique
en analyse de survie
Directeur de thèse : Monsieur le Docteur Philippe BROËT
Co-directeur : Monsieur le Docteur Thierry MOREAU
Membres du Jury :
M. Jean-Christophe THALABARD (PU-PH) Président
M. Jean-Louis GOLMARD (MCU-PH) Rapporteur
M. Jean-Pierre DAURÈS (PU-PH) Rapporteur
M. Khê HOANG XUAN (PU-PH) Examinateur
M. Philippe BROËT (MCU-PH) Directeur de thèse
M. Thierry MOREAU (DR) Co-directeurThèse préparée dans les laboratoires suivants :
Département de Méthodologie Biostatistique
de la génomique en épidémiologie clinique
Hôpital Paul Brousse
16 av. Paul Vaillant Couturier
94807 Villejuif cedex
France
http ://ifr69.vjf.inserm.fr/je2492/index.html
Équipe Biostatistiques
INSERM UMRS 1018
Hôpital Paul Brousse
16 av. Paul Vaillant Couturier
94807 Villejuif cedex
France
http ://www.cesp.idf.inserm.fr/page.asp?page=1098
Genome Institute of Singapore
60 Biopolis Street, Genome
Singapore 138672ore
http ://www.gis.a-star.edu.sg/internet/site/345
Remerciements
J’aimerais ici remercier toutes les personnes qui m’ont soutenues au cours de ces
trois années et demi de thèse, en France et à Singapour.
Tout d’abord, je tiens à remercier Philippe Broët, mon directeur de thèse, pour
ses conseils, sa patience et son aide considérable, pour avoir toujours pris le temps de
m’éclairer sur les points obscurs et pour m’avoir donner l’opportunité de réaliser une
grande partie de mon travail à Singapour.
J’aimerais également exprimer ma gratitude à Thierry Moreau, qui m’a également
beaucoup apporté d’un point de vue scientifique, qui m’a soutenue et encouragée, et m’a
suivie durant ces trois années (pas toujours évident avec la distance).
Je remercie sincèrement les membres de mon jury de thèse. Merci à Monsieur Jean
Christophe Thalabard de m’avoir fait l’honneur d’être président, ainsi qu’à Messieurs
Jean-Louis Golmard et Jean-Pierre Daurès, qui ont bien voulu rapporter cette thèse.
Merci Monsieur Khê Hoang Xuan d’avoir accepté de faire partie de mon jury.
J’aimerais remercier le Ministère de l’Enseignement Supérieur et de la Recherche ,
ainsi que le Genome Institute of Singapore pour leur financement.
Mes remerciements s’adressent à toutes les personnes que j’ai rencontrées au cours
de mon parcours et qui ont contribué à rendre ces trois années agréables et enrichissantes,
aussi bien à l’INSERM, à l’Université Paris Sud qu’ au Genome Institute of Singapore.
Un grand merci à mes amis qui m’ont soutenu et aidé à persévérer dans mon travail.
Je tiens à remercier ma famille pour leur amour et l’intérêt porté à mon travail :
mon père, ma sœur et mon grand-père.
Finally, I would like to express my gratitude to Lawrence, who has been very com-
prehensive, supportive and always available.6
Résumé
Dans le domaine de l’oncogénomique, l’un des axes actuels de recherche est l’identification de
nouveaux marqueurs génétiques permettant entre autres de construire des règles prédictives vi
sant à classer les patients selon le risque d’apparition d’un événement d’intérêt (décès ou récidive
tumorale). En présence de telles données de haute dimension, une première étape de sélection
parmi l’ensemble des variables candidates est généralement employée afin d’identifier les mar
queurs ayant un intérêt explicatif jugé suffisant. Une question récurrente pour les biologistes est
le choix de la règle de sélection. Dans le cadre de l’analyse de survie, les approches classiques
consistent à ranger les marqueurs génétiques à partir du risque relatif ou de quantités issues de
test statistiques (pvalue, qalue). Cependant, ces méthodes ne sont pas adaptées à la combinai
sonderésultatsprovenantd’étudeshétérogènesdontlestaillesd’échantillonssonttrèsdifférentes.
Utiliser un indice tenant compte à la fois de l’importance de l’effet pronostique et ne dépendant
que faiblement de la taille de l’échantillon permet de répondre à cette problématique. Dans
ce travail, nous proposons un nouvel indice de capacité de prédiction afin de sélectionner des
marqueurs génomiques ayant un impact pronostique sur le délai de survenue d’un évènement.
2CetindiceétendlanotiondepseudoR danslecadredel’analysedesurvie.Ilprésenteégalement
une interprétation originale et intuitive en terme de « séparabilité ». L’indice est tout d’abord
construit dans le cadre du modèle de Cox, puis il est étendu à d’autres modèles plus complexes à
risques nonroportionnels. Des simulations montrent que l’indice est peu affectée par la taille de
l’échantillon et la censure. Il présente de plus une meilleure séparabilité que les indices classiques
delalittérature.L’intérêtdel’indiceestillustrésurdeuxexemples.Lepremierconsisteàidentifier
des marqueurs génomiques communs à différents types de cancers. Le deuxième, dans le cadre
d’une étude sur le cancer bronchoulmonaire, montre l’intérêt de l’indice pour sélectionner des
facteurs génomiques entraînant un croisement des fonctions de risques instantanés pouvant être
expliqué par un effet « modulateur » entre les marqueurs. En conclusion, l’indice proposé est un
outil prometteur pouvant aider les chercheurs à identifier des listes de gènes méritant des études
plus approfondies.
2Mots clés : Analyse de survie, Génomique, Oncologie, Pseudo-R7
Abstract : Development of a separability index for geno-
mic data in survival analysis
In oncogenomics research, one of the main objectives is to identify new genomic markers so as
to construct predictive rules in order to classify patients according to timetovent outcomes
(death or tumor relapse). Most of the studies dealing with such high throughput data usually
rely on a selection process in order to identify, among the candidates, the markers having a
prognostic impact. A common problem among biologists is the choice of the selection rule. In
survival analysis, classical procedures consist in ranking genetic markers according to either the
estimated hazards ratio or quantities derived from a test statistic (palue, qalue). However,
these methods are not suitable for gene selection across multiple genomic datasets with different
sample sizes.
Using an index taking into account the magnitude of the prognostic impact of factors without
beinghighlydependentonthesamplesizeallowstoaddressthisissue.Inthiswork,weproposea
novelindexofpredictiveabilityforselectinggenomicmarkershavingapotentialimpactontime-
2tovent outcomes. This index extends the notion of "pseudo " in the framework of survival
analysis. It possesses an original and straightforward interpretation in terms of "separability".
TheindexisfirstderivedintheframeworkoftheCoxmodelandthenextendedtomorecomplex
nonroportionalhazardsmodels.Simulationsshowthatourindexisnotsubstantiallyaffectedby
the sample size of the study and the censoring. They also show that its separability performance
ishigherthanindicesfromtheliterature. Theinterestoftheindexisillustratedintwoexamples.
The first one aims at identifying genomic markers with common effects across different cancer
types. The second shows, in the framework of a lung cancer study, the interest of the index
for selecting genomic factor with crossing hazards functions, which could be explained by some
"modulating" effects between markers. The proposed index is a promising tool, which can help
researchers to select a list of features of interest for further biological investigations.
2Key words : Survival Analysis, Genomics, Oncology, Pseudo-R89
Liste des travaux relatifs à la thèse
Publications
(1) S. Rouam, T. Moreau and P. Broët. Identifying common prognostic factors in genomic
cancer studies : A novel index for censored outcomes. BMC Bioinformatics, 11(1) :150, 2010.
2(2) S. Rouam, T. Moreau and P. Broët. A pseudo measure for selecting genomic
markers with crossing hazard functions BMC Medical Research Methodology, 11(1) :28, 2011.
(3) S. Rouam, T. Moreau and P. Broët. . A note on crossing hazard functions in survival
models. En préparation.
Posters
(1) S. Rouam. Identifying common prognostic factors in genomic cancer studies : A novel
discrimination index for survival data. Singapore Symposium on Computational Biology, 8
septembre 2009, A*Star, Singapore.