UNIVERSITÉ VICTOR SEGALEN BORDEAUX 2 Institut de Santé Publique, d’Épidémiologie et de Développement (ISPED) HABILITATION A DIRIGER DES RECHERCHES “MODÉLISATION STATISTIQUE ET APPLICATIONS BIOMÉDICALES” présentée et soutenue le 7 décembre 2009 par Benoît LIQUET Maître de Conférences (section 26) ISPED, Université de Bordeaux 2 - INSERM U 897 Membres du Jury Monsieur Ali Gannoun Professeur, Université Montpellier 2 Président Bernard Bercu Université de Bordeaux 1 Rapporteur Monsieur Laurent Bordes Professeur, Université de Pau et des Pays de l’Adour Rapp Nicolas Molinari Maître de conférences-PH, Université de Montpellier Rapporteur Monsieur Ahmadou Alioum Professeur, Université de Bordeaux 2 ExaminateurRemerciements Je remercie tout d’abord très sincèrement Bernard Bercu, Laurent Bordes et Nicolas Molinaripouravoir acceptéd’être rapporteur de cette habilitation. Je les remercie vivement pour le temps qu’ils ont consacré à la lecture de mon mémoire et à l’intérêt qu’ils lui ont porté. Merci à Ali Gannoun et à Ahmadou Alioum, pour m’avoir fait l’honneur de participer au jury de cette habilitation. Je leur adresse mes vifs remercie- ments pour les suggestions concernant mes recherches et ce mémoire. Merci infiniment à Jérôme Saracco avec qui j’ai grand plaisir à travailler depuis 6 ans tant pour ses qualités scientifiques qu’humaines. Quetousveuillentbienm’autoriseràconsacrerceparagrapheàl’ensemble de mes co-auteurs à qui j’exprime toute ma gratitude. Avant de les citer, ...
UNIVERSITÉ VICTOR SEGALEN BORDEAUX 2
Institut de Santé Publique, d’Épidémiologie et de Développement (ISPED)
HABILITATION A DIRIGER DES RECHERCHES
“MODÉLISATION STATISTIQUE ET
APPLICATIONS BIOMÉDICALES”
présentée et soutenue le 7 décembre 2009 par
Benoît LIQUET
Maître de Conférences (section 26)
ISPED, Université de Bordeaux 2 - INSERM U 897
Membres du Jury
Monsieur Ali Gannoun Professeur, Université Montpellier 2 Président Bernard Bercu Université de Bordeaux 1 Rapporteur
Monsieur Laurent Bordes Professeur, Université de Pau et des Pays de l’Adour Rapp Nicolas Molinari Maître de conférences-PH, Université de Montpellier Rapporteur
Monsieur Ahmadou Alioum Professeur, Université de Bordeaux 2 ExaminateurRemerciements
Je remercie tout d’abord très sincèrement Bernard Bercu, Laurent Bordes
et Nicolas Molinaripouravoir acceptéd’être rapporteur de cette habilitation.
Je les remercie vivement pour le temps qu’ils ont consacré à la lecture de mon
mémoire et à l’intérêt qu’ils lui ont porté.
Merci à Ali Gannoun et à Ahmadou Alioum, pour m’avoir fait l’honneur
de participer au jury de cette habilitation. Je leur adresse mes vifs remercie-
ments pour les suggestions concernant mes recherches et ce mémoire.
Merci infiniment à Jérôme Saracco avec qui j’ai grand plaisir à travailler
depuis 6 ans tant pour ses qualités scientifiques qu’humaines.
Quetousveuillentbienm’autoriseràconsacrerceparagrapheàl’ensemble
de mes co-auteurs à qui j’exprime toute ma gratitude. Avant de les citer, je
tiens à remercier ici plus particulièrement les membres de l’équipe SAGAG
de Grenoble : Remy Drouilhet, Pierre Lafaye de Micheaux, Franck Corset et
Jean-François Coeurjolly. Merci aussi à Marie Chavent, Anne Gégout-Petit,
Vanessa Kuentz, Pierre Joly, Virginie Rondeau.
Merci à Daniel Commenges qui, en tant que directeur de l’équipe Biosta-
tistique, m’a donné tous les moyens dans l’accomplissement de mon activité
de recherche durant mon doctorat et depuis mon retour sur Bordeaux; et
surtout pour l’ensemble du travail effectué ensemble.
Je tiens également à adresser mes sincères remerciements à tous les autres
membres de l’Equipe Biostatistique de l’ISPED, pour leur disponibilité et
leurs précieux conseils. Merci également à tous mes collègues de Bordeaux 2
(qui se reconnaîtront) pour leur soutien et avec qui j’ai passé beaucoup de
bons moments.
Enfin, je tiens à remercier Marie Chavent et Jérome Saracco pour m’avoir
motivé à rédiger cette habilitation, pour leurs relectures et leurs précieux
conseils.Table des matières
1 Présentation générale 6
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Liste de publications . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Articles publiés dans des revues avec comité de lecture 10
1.2.2 Livre et chapitres de livre . . . . . . . . . . . . . . . . 12
1.2.3 Articles soumis . . . . . . . . . . . . . . . . . . . . . . 12
1.2.4 Travaux collaboratifs en cours . . . . . . . . . . . . . . 12
1.2.5 Communications dans des congrès . . . . . . . . . . . . 13
1.3 Curriculum Vitæ . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Sélection de Modèle 21
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Théorie générale du risque de kullback-Leibler . . . . . . . . . 27
2.2.1 La divergence de Kullback-Leibler . . . . . . . . . . . . 27
2.2.2 Différence de risques de Kullback-Leibler . . . . . . . . 29
2.2.3 Critères pratiques de sélection : AIC et LCV . . . . . . 30
2.3 Choix d’estimateurs semi-paramétriques par Bootstrap . . . . 31
2.4 en présence de données incomplètes . . . 34
2.5 Choix entre un modèle à risques proportionnels et un modèle
stratifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 Choix entre modèle markovien et modèle non-markovien . . . 38
2.7 d’estimateurs basés sur des observations différentes . . . 41
2.8 Tirés à part des publications concernant le chapitre 2 . . . . . 48
3 Réduction de dimension et méthode SIR 138
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.2 Modèles semi-paramétriques de réduction de dimension . . . . 139
3.2.1 Cas où y2R . . . . . . . . . . . . . . . . . . . . . . . 140
3q3.2.2 Cas où y2R . . . . . . . . . . . . . . . . . . . . . . . 141
3.3 Méthodes SIR . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
3.3.1 Les méthodes SIR univariées de type “Slicing” . . . . . 142
3.3.2 Méthode SIR multivariée . . . . . . . . . . . . . . . . 147
3.4 Choix du nombre K d’indices et du paramètre dans la mé-
thode SIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
3.5 Choix du nombre H de tranches . . . . . . . . . . . . . . . . . 151
3.6 Cas des variables qualitatives . . . . . . . . . . . . . . . . . . 154
3.7 SIR et le “Bagging” . . . . . . . . . . . . . . . . . . . . . . . 157
3.8 Cas de modèles semi-paramétriques de sélection . . . . . . . . 160
3.9 Tirés à part des publications concernant le chapitre 3 . . . . . 169
4 Modèle de Survie et Modèle Multi-états 277
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
4.2 Modèle de survie et Modèle multi-états . . . . . . . . . . . . . 278
4.2.1 Modèle de survie . . . . . . . . . . . . . . . . . . . . . 278
4.2.2 Modèle multi-états . . . . . . . . . . . . . . . . . . . . 282
4.3 Modélisation de la pneumonie nosocomiale . . . . . . . . . . . 286
4.3.1 Modèle Multi-états proposé . . . . . . . . . . . . . . . 289
4.3.2 Prédiction d’une pneumonie nosocomiale . . . . . . . . 293
4.3.3 Estimation de la mortalité attribuable . . . . . . . . . 295
4.4 Modèle multi-états en sureté de fonctionnement . . . . . . . . 298
4.5 Analyse de données de Survie Corrélées . . . . . . . . . . . . . 300
4.6 Tiré à part concernant l’Analyse de donnée de Survie Corrélés 304
5 Thèmes satellites 323
5.1 Multiplicité des tests . . . . . . . . . . . . . . . . . . . . . . . 324
5.2 Didactique et Logiciel R . . . . . . . . . . . . . . . . . . . . . 354
5.3 Courbes de référence . . . . . . . . . . . . . . . . . . . . . . . 370
5.4 Méthode non-paramétrique pour l’analyse de niveaux d’ex-
pression de gènes . . . . . . . . . . . . . . . . . . . . . . . . . 401
6 Perspectives 422
4Chapitre 1
Présentation générale
1.1 Introduction
Ce mémoire fait la synthèse de l’ensemble de mes travaux de recherche de-
puis ma thèse d’Université (soutenue en décembre 2002). Les travaux présen-
tés dans ce document s’inscrivent dans le cadre de la modélisation statistique
en Biostatistique. Plus particulièrement ils s’articulent autour de plusieurs
grands thèmes de la Statistique, à savoir la régression paramétrique et semi-
paramétrique, les données de survie, les tests multiples. La majorité de ces
travaux, sollicités par des problématique réelles, sont accompagnés par des
développements et des outils informatiques à l’usage d’un plus large public.
Danslasuitedecemémoire,j’airegroupémestravauxen5chapitresprin-
cipaux : le thème du chapitre 2 concerne la sélection de modèle, le chapitre
3 concerne la réduction de dimension et la régression semi-paramétrique, le
chapitre 4 porte sur l’analyse de survie et les modèles multi-états, et le cha-
pitre 5 regroupe différents thèmes (que l’on peut qualifier de “satellites” par
rapport aux trois précédents chapitres) en statistique appliquée. Présentons
maintenant plus précisément ces quatre chapitres principaux.
Dans le chapitre 2, nous nous intéressons au problème de la sélection de
modèle. Le statisticien appliqué est non seulement confronté à la difficulté de
sélectionner un modèle approprié à ses données mais aussi à l’embarras du
choix entre les différents critères de sélection. Les différentes approches (tests
d’hypothèses, critères bayésien, validation croisée) sont construites avec des
espritsdifférents.Ellesselimitentsouventàdesquestionsprécisesetsontuti-
6lisées dans un contexte particulier. Nous proposons dans ce chapitre d’unifier
les différentes approches par un critère d’information répondant au principe
de la sélection de modèles à la fois dans un cadre paramétrique et non-
paramétrique. Le critère d’information proposé est basé sur l’information de
Kullback-Leibler.L’informationdeKullback-Leiblerconstitue,parailleurs,le
fondement du critère usuel AIC proposé par Akaike. Au cours de mon docto-
rat, nous avons étendu le critère EIC au cadre semi-paramétrique. Ce critère
1présenté par Ishiguro, Sakamoto et Kitagawa (1997) dans un cadre paramé-
trique est lui même une extension du critère d’Akaike (AIC). L’idée du EIC
est de corriger le biais de la log-vraisemblance, considérée comme un esti-
mateur de l’information de Kullback-Leibler, en utilisant le bootstrap. Nous
avons développé ce critère pour l’utiliser dans un cadre d’estimation semi-
paramétrique multivariée. En présence de données incomplètes, cas fréquent
en analyse de survie, l’estimation de la divergence de Kullback-Leibler de-
vient problématique. Nous proposons comme nouveau critère l’espérance de
la log-vraisemblance observée. Les critères pratiques développés permettent
enparticulierdesélectionnerleparamètredelissagedansl’estimationlissede
la fonction de risque. Nous avons ensuite utilisé ce critère pour choisir entre
des modélisations différentes de la fonction de risque : modèle à risque pro-
portionnel ou modèle stratifié. L’intérêt s’est ensuite porté sur le choix d’es-
timateurs semi-paramétriques dans des modèles multi-états. Nous proposons
un critère permettant de choisir entre modèles markovien et non-markovien.
Nous nous intéressons plus particulièrement a quantifier les différences de
risques obtenues par les estimateurs en compétition. Enfin, nous proposons
un critère de sélection afin de choisir entre des estimateurs définis sur des
observations différentes. Le critère proposé sera défini sur les observations
communes aux estimateurs. Deux exemples sont exposés : choix entre mo-
dèle linéaire et modèle Probit ou Logit; choix entre modèle Multi-états et
modèle de survie.
Le chapitre 3 est consacré à la réduction de