Dans ce travail, nous nous proposons d’étudier deux formalisations mathéma-tiques de l’étude d’une population. En effet, cette étude peut se faire soit en remon-tant le temps, par exemple pour déduire d’une partition allélique donnée l’état de la population à un temps antérieur, soit en faisant avancer le temps pour prédire l’évo-lution future de cette population. La première modélisation de l’évolution du futur d’une population remonte à T. Malthus, dans son ouvrage[Mal78]qui propose de représenter le nombre d’humains sur Terre par une suite géométrique. Bien d’autres modèles ont suivi. Notons en parti-culier le premier modèle probabiliste, introduit indépendemment par I.-J. Bienaymé d’une part et F. Galton et H. Watson. Il visait à modéliser l’évolution des patronymes de la noblesse anglaise. Le modèle de Bienaymé-Galton-Watson est encore très utilisé de nos jours, en particulier à cause de sa simplicité. L’étape suivante fut franchie au début du XXe siècle par Yule, qui étudie des populations structurées (chaque individu possèdu une caractéristique, typiquement un allèleaouA) évoluant aléatoirement. De nombreuses études théoriques furent menées sur ce sujet, conduisant en particu-lier à l’importante loi de Hardy-Weinberg1et à la formulation du modèle de Wright-Fisher, que nous présenterons plus en détail. Dans le même ordre d’idées, on s’est intéressé à des processus aléatoires modélisant l’évolution d’une population représen-tée par une mesure de probabilités (une densité). C’est l’émergence dessuperprocessus, dont notamment le processus de Fleming-Viot. A l’inverse, on peut tenter de prédire la généalogie passée d’une population à par-tir de données concernant le présent. Un premier résultat dans ce sens est la formule d’échantillonnage d’Ewens qui donne sous certaines hypothèses la forme exacte de la partition allélique d’une population idéalisée. On a alors cherché à modéliser les as-cendances de populations issues des modèles de population cités plus haut. C’est l’idée du coalescent, introduit par Kingman dans l’article fondamental de 1982 ([Kin82b]). Ces concepts furent ensuite repris à la fin des années 90 et donnent lieu à de nom-breuses études de nos jours. En particulier, dans ce travail, nous aimerions présenter une étude de ces deux su-jets simultanément : en effet, J. Bertoin et J.-F. Le Gall ont proposé un cadre de travail unifié pour ces deux modélisations. Ainsi, ils ont introduit la notion de flot de ponts : ce sont des familles d’applications sur[0,1], obéissant à des contraintes spécifiques vis-à-vis de la composition. L’objectif de ce travail est donc double : mettre en place les relations que les flots de ponts entretiennent avec les processus généalogiques dé-crits plus haut et voir comment ils permettent de généraliser des propriétés connues jusqu’alors dans des cas particuliers. De plus, la plupart de ces résultats possèdent une 1. qui donne des conditions pour qu’une partition allélique soit à l’équilibre dans un modèle de Bienaymé-Galton-Watson
2
interprétation généalogique naturelle, que nous nous efforcerons de souligner. Ainsi, nous commencerons par rappeler les propriétés, maintenant classiques, de certains modèles de la génétique des populations, particulièrement les modèles de Cannings et de Wright-Fisher. Il s’agit de modélisations d’une population et d’une loi de reproduction. Ils ont la propriété d’être à taille de populationfixe: seuls certaines populations (les bactéries,...) peuvent être ainsi modélisées. L’analyse vers le futur de ces modèles recèle des mathématiques intéressantes : le modèle de Wright-Fisher est décrit dans l’approximation d’une grande population par une diffusion sur l’in-tervalle[0,1]. Nous nous intéresserons plutôt aux méthodes permettant d’analyser le passé, notamment les coalescents, en insistant sur l’interprétation généalogique qu’on peut leur prêter et leur apparition naturelle comme limite de processus ancestraux. Le coeur de notre travail est dans le chapitre 2. Il vise à mettre en place la corres-pondance, établie par Bertoin et Le Gall dans[BLG03], entre flots de ponts échan-geables etΞ-coalescents (théorème 35). Il sera intéressant d’en étudier un cas particu-lier (lesΛ-coalescents) pour lequel les flots de ponts prennent une forme particulière-ment simple (théorème 39). Enfin, nous nous intéresserons aux possibilités d’utilisation des flots de ponts (et des processus à valeurs de mesures associés) pour modéliser l’évolution future d une ’ population. Comme nous l’avons déjà dit, l’idée n’est pas neuve. Aussi, nous com-mencerons par expliquer les bases de la théorie des processus de Fleming-Viot. En-suite, nous exposerons la généralisation qu’en proposent Bertoin et Le Gall. En parti-culier, nous montrerons comment, à l’instar des processus de Fleming-Viot classiques, ces processus généralisés se caractérisent par un problème de martingale, notion in-troduite par Stroock et Varadhan (théorème 47). Ce travail nous permettra aussi de généraliser la dualité connue entre processus de Fleming-Viot et coalescent de King-man (théorème 53). Un appendice propose, sans démonstration, un certain nombre de résultats tech-niques d’usage constant dans tout le travail, concernant en particulier la topologie de Skorokhod et le théorie de la convergence faible dans les espaces métriques. Je tiens évidemment à remercier pour sa patience et sa disponibilité Amaury Lam-bert, qui m’a fait découvrir la génétique des populations, particulièrement le beau sujet des coalescents. Merci aussi à Jean-François Le Gall, qui m’a fait rencontrer Amaury Lambert, et surtout merci à Jean Bertoin, mon tuteur attentif depuis deux ans.
3
Chapitre 1
Rappels
1.1 Modèles de population 1.1.1 Modèle de Cannings Le modèle de Cannings est une représentation stochastique de la généalogie d’une population de taille finie et fixée. Historiquement, ce modèle est apparu comme gé-néralisation du modèle de Wright-Fisher, que nous présentons plus loin. Il permet d’étudier de façon très simple la dynamique de la proportion d’un allèle dans une population de gènes. SoitN≥1 un entier, correspondant à la taille de la population. Les individus à l’instantndonnent naissance –en temps discret– aux individus de la génération suivante. C’est un modèlehaploïde parent., dans lequel chaque individu n’a qu un ’ Plus précisément, on noteηn,ile nombre d’enfants de l’individuide la générationn. On met sur ces variables les conditions suivantes : Hypothèse 1.On dit que(ηk,i,k∈Z,i∈J1,NK)est de Cannings si – La population est de taille constante :∀k∈Z,ηk,1+...+ηk,N=N – Pour tout k, les variables(ηk,1, ...,ηk,N)sontéchangeables – Les vecteurs(ηk1, ...,ηk,N)pour k∈Zsont iid. , L’échangeabilité est une généralisation de l’indépendance et se définit ainsi : Définition 2.On dit que les variables(X1, ...,Xn)sontéchangeablessi, pour tout σ∈Sn, les vecteurs(X1, ...,Xn)et(Xσ(1), ...,Xσ(n))ont la même loi. On dit qu’une suite(Xi)i≥1de variables aléatoires est échangeable si pour tout n, les X1, ...,Xnsont échangeables. Une suite de variables iid est échangeable, et, siP(X1+...+Xn=x)>0 pour un certainx, conditionnellement à cet événement, elles sont encore échangeables. Donnons quelques propriétés supplémentaires, qui seront utiles plus loin (on pourra trouver un panorama assez complet de l’échangeabilité dans[Ald85]). Le théorème essentiel est le théorème de de Finetti : Théorème 3.(de Finetti) Soit(Xn)n≥1suite de v.a réelles, échangeables. Il existeune alors une mesure de probabilités aléatoire F surR les ,telle que conditionnellement à F (Xn)sont iid de loi F .
4
Démonstration.PosonsGn=σ(f(X1, ...,Xn),fetm´syiruqe)etHn=σ(Gn,Xn+1, ...). La suite(Hn)n≥1est alors une filtration rétrograde. Par échangeabilité, siYestHn-mesurable, siϕest borélienne, alors(ϕ(X1, ...,Xn),Y)a la même loi que(ϕ(Xσ(1), ...,Xσ(n)),Y) pourσ∈Sn. Ainsi, siϕest borélienne, en appliquant ce résultat à la permutation 1↔i, on a E(ϕ(X1)|Hn) =E(ϕ(Xi)|Hn)pour 1≤i≤n 1n =E(niX=1ϕ(Xi)|Hn) =1nXϕ(Xi) ni=1 puisquen1Pni=1ϕ(Xi)estGn- doncHn-mesurable. Ainsi,(n1Pin=1ϕ(Xi))n≥1est une Hnqui converge p.s. (car elle est fermée) vers-martingale rétrograde, E(ϕ(X1)|H∞), où ∞ H∞=\Hn n=1 est la tribu échangeable. Le même argument que plus haut montre que sik<n, siϕ est mesurable bornée, =1X..,Xjk) E(ϕ(X1, ...,Xk)|Hn()n)k(j1,...,jk)∈Dk,nϕ(Xj1, . oùDk,={(j1, ...,jk)∈J1,nKk,jitous distincts}, qui est de cardinal(n)k=n(n− n 1)...(n−k+1). En utilisant encore une fois la convergence p.s. d’une martingale rétrograde fer-mée, ainsi que le fait que pourkfixé,|J1,nKk−Dk,n|=O(nk−1), on voit que 1Xn...nX njk1=1jk=1ϕ(Xj1, ...,Xjk)−→E(ϕ(X1, ...,Xk)|H∞)p.s. En appliquant ce résultat àϕ(x1, ...,xk) =ϕ1(x1)...ϕk(xk), on obtient que n 1kX...Xnϕ1(Xj1)...ϕk(Xjk)−→E(ϕ1(X1)...ϕk(Xk)|H∞)p.s. nj1=1jk=1 Or, le terme de gauche se factorise en(1/nPϕ1(Xi))...(1/nPϕk(Xi)), qui converge a (d’ près la convergence unidimensionnelle démontrée plus haut) versE(ϕ1(X1)|H∞)...E(ϕk(Xk)|H∞). Ceci montre donc bien que la suite(Xi)est indépendante conditionnellement àH∞. En prenant alors pourFune loi conditionnelle deX1sachantH∞(qui existe, les v.a étant réelles), il est facile de vérifier que, conditionnellement àF, les(Xi)sont iid de loiF. Supposons à présent que l’on étudie l’évolution d’un gène dans cette population, et que ce gène possède deux allèles, notés traditionnellementaetA. NotonsYnle nombre d’individus porteurs de l’allèleaà la générationnet soitPyla mesure condi-tionnelleP(.|Y0=y). La proposition suivante découle immédiatement de la défini-tion du modèle de Cannings. 5
Proposition 4.Le processus(Yn)n≥0est une chaîne de Markov sur l’espace{0, ...,N}. En luant le c exc as oùηk,i=1p.s., cette chaîne ne possède que deux états absorbants, 0 et N qui sont tous deux accessibles. Par conséquent, si on noteτ=inf{n≥0,Yn∈ {0,N}}, on aτ <∞p.s. On dit qu’il y afixationsiYτ=Net qu’il y aextinctionsiYτ=0. On peut calculer les probabilités de fixation : Proposition 5.On aPy(Fix) =yN Démonstration.Remarquons d’abord que, dans la filtrationFn=σ(ηk,1, ...,ηk,N, 0≤ k≤n),(Yn)est une martingale : conditionnellement àYn, par échangeabilité,Yn+1a la même loi quePYi=n1ηn,i. Comme de plus,E(ηk,i) =1, en conditionnant,Ey(Yn+1|Fn) = Yn. En appliquant alors le théorème d’arrêt à la martingale bornée(Yn), on obtient y=Ey(Yτ) =Ey(N1Yτ=N+0∙1Yτ=0) =NPy(Fix)
Il y a peu de résultats généraux concernant le modèle de Cannings, la plupart des études étant consacrées aux modèles de Wright-Fisher et de Moran. Mentionnons quand même le résultat central de Cannings ([Can74]) qui donne les valeurs propres de la matrice de transition associée à(Yn)n≥0en fonction de la loi de reproduction. Théorème 6.P est la matrice de transition de YSi net si|λ0| ≥ |λ1| ≥...≥ |λN|sont ses valeurs propres, alorsλ0=λ1=1(correspondant aux états absorbants 0 et N) et, pour j≥2, λj=E(η1η2...ηj)(1.1) En particulier, on peut remarquer que siσ2=Var(η), on aλ2=E(η1η2) = 1−σ2/(N−1). Il est alors facile de voir quePy(τ >n)décroît comme une suite géométrique de raisonλ2, ce qui donne une idée du temps de disparition d’un des deux allèles. En effet, siPn= (pjin), on a la forme asymptotique, sij∈/{0,N}, pnyj=r2yl2jλn2+O(λ3n) (avecretlles vecteurs propres à droite et à gauche respectivement). Ainsi,Py(τ > n)est de l’ordre deλn2. Le coefficientλ2indique donc bien la vitesse de convergence vers la mesure invariante du modèle de Cannings. 1.1.2 Modèle de Wright-Fisher Le modèle de Wright-Fisher est un cas particulier du modèle de Cannings : il correspond au cas où les(ηk,1, ...,ηk,N)suivent une loi multinomiale de paramètres (N ;1/N,...,1/N). En d’autres termes, si on ai1+...+iN=N, N! 1 P(ηk,1=i1, ...,ηk,N=iN) =i1!...in!NN(1.2) Cette loi multinomiale correspond au résultat du tirage avec remise deNboules dans une urne comportantNboules différentes. Le modèle de Wright-Fisher peut 6
donc aussi s’interpréter comme résultant du tirage par chaque individu de la généra-tionn+1 de son père parmi la générationn, de façon uniforme et indépendante. Quitte à renuméroter, on peut supposer, par échangeabilité, que les descendants de l’individuià la générationnsont exactement les individusηn,1+...+ηn,i−1+ 1, ...,ηn,1+...+ηn,i.
FIGURE1.1 – Une réalisation du modèle de Wright-Fisher Si on reprend l’étude du processus(Yn)défini au paragraphe précédent, on voit immédiatement grâce à l’interprétation en termes de tirages aléatoires, que condition-nellement àYn=j,Yn+1suit une loi binomiale de paramètres(N,j/N): P(Yn+1=i|Yn=j) =iNNji1−jNN−i(1.3) On peut montrer que la plupart des quantités associées au modèle de Wright-Fisher prennent en fait une forme plus simple lorsqueN→ ∞, c’est-à-dire dans la limite desgrandes populations. Par exemple, il n’est pas difficile de voir que si l’on note(YnN)n≥1la chaîne de Markov décrivant l’évolution d’une sous-population de taille initialei, le processus(YNn)converge lorsqueN→ ∞. Théorème 7.La suite de processus(YNn)converge faiblement en loi vers un processus de Bienaymé-Galton-Watson Pn, de loi de reproduction poissonnienne de paramètre 1. Démonstration.Ceci découle en effet du théorème des événements rares, qui donne la convergence faible de la loi binomiale Bin(N,i/N)vers la loi de Poisson de paramètre i. Ceci nous donne la convergence en loi des lois fini-dimensionnelles, qui suffit pour prouver le résultat. Jusqu’à présent, nous avons donné des résultats qui traitent du futur, c’est-à-dire de la descendance d’une population. Or, en pratique, ce genre de problème est aussi (ou même moins) important que le problème inverse : à partir de données présentes, comment étudier le passé ? Ce sont les problèmes essentiels des généticiens, cherchant par exemple à construire des arbres phylogénétiques à partir de données génétiques disponibles aujourd’hui. Nous allons nous servir des processus ancestraux, définis comme suit : Définition 8.Le processus ancestral d’un modèle de Wright-Fisher de taille de population N est le processus aléatoire(RnN)n∈N, oùRnNest la relation d’équivalence surJ1,NK, définie par i∼j⇔ietjont le meˆme ancˆetre il y an´engseirona´t
7
Il faut ici se représenter le processus ancestral comme coalescence : dans un arbre généalogique, lu en remontant le temps, deux individus avec le même père « coa-gulent »pour former ce père. Essayons de donner une idée des processus ancestraux du modèle de Wright-Fisher et de leur comportement lorsque la taille de la population tend vers l’infini. Pour une analyse rigoureuse, voir ([Kin82a]) ou encore ([Tav04]). Comme les choix de parents sont indépendants et uniformes, P(1 et 2 n0ont pas le meˆere`pem) =1−N1 Ainsi, la bonne échelle de temps pour observer l’ancêtre commun à 1 et 2 estN. Comme le même procédé de choix s’applique pour les pères, indépendemment du procédé de choix précédent, on peut itérer cet argument et on voit que P(1 et 2 n0ont pas le mˆeme ancˆetre il y arragt´ieonn´se) =1−N1r Dans l’échelle de tempsr=N t, siN→ ∞, le terme de droite converge vers exp(−t). En interprétant le terme de gauche comme la fonction de répartition du temps d’ap-parition du premier ancêtre commun, on voit que celui-ci possède, dans la limite des grandes populations, une loi exponentielle de paramètre 1. Si l’on répète le raison-nement pour tout couple d’individus, la limite sera la même, et les variables limites indépendantes, puisque les choix de parents le seront. Ainsi, le temps d’apparition du premier ancêtre commun àkindividus, dans la limite d’une population de taille N→ ∞, est1une variable exponentielle de paramètre2k(minimum de2kv.a expo-nentielles indépendantes de paramètre 1). Par indépendance des lois de reproduction dans le temps, on peut poursuivre cette analyse avec la population dek−1 individus obtenus, qui va admettre un ancêtre commun au bout d’un temps de loi exponentielle de paramètrek−12. On peut en fait décrire le processus limite, qui représente de manière plus précise la généalogie ancestrale d’un échantillon de tailleklorsque la population totale tend vers l’infini. Il s’agit d’un processus de Markov, à valeurs dans l’espace des partitions deJ1,kK, qui saute depuis une partition àkblocs vers une partition à(k−1)blocs à vitesse2k. C’est lek-coalescent de Kingman. Avant d’en donner une description plus complète, étudions les lois sur l’espace des partitions. 1.2 Partitions aléatoires échangeables Dans toute la suite, pour toutn∈N, on noteraPnl’espace des partitions de J1,nKétend la notation pour désigner par. On P∞l’ensemble de toutes les partitions deN. SiΠest une partition deN, on noteraρnΠla partition deJ1,nKobtenue par restriction. Par abus de notation, on s’autorisera à écrire encoreρnΠlorsqueΠest une partition deJ1,mKavecm≥n. L’ensemblePn(n≤ ∞est ordonné par l’inclusion : on notera) τ⊆σsi les éléments deτpeuvent s’écrire comme union d’éléments deσ. On peut définir une autre relation surPnpar : siσ,τ∈ Pn, on noteστsiσest obtenue à partir deτ en fusionnant exactement deux éléments. 1. sous réserve d’un raisonnement plus précis
8
Définition 9.Soientσ,τdeux partitions deN. Notons(Ai)i∈N(resp.(Bi)i∈N) les blocs deσ(resp. deτ). Lacoagulationdeσparτest alors la partition dont les blocs sont les ensembles Ci=[Aj(1.4) j∈Bi Pour munirP∞d’une topologie, on identifie une partitionΠavec le vecteur (ρ1Π,ρ2Π, ...). On munit alorsP∞de la topologie induite sur cet espace par la topo-logie produit deP1× P2×..., qui en fait évidemment un espace compact. On métrise cet espace par la distance classique d(σ,τ) =2−inf{n∈N,ρnσ6=ρnτ} On peut remarquer que siπest une partition deN, alors l’opération de coagulation parπest continue surP∞. On peut alors définir les partitions aléatoires qui sont les variables aléatoires à valeurs dans l’espaceP∞. Définition 10.Une partition aléatoire échangeable est une variable aléatoireΠà va-leurs dans l’espace des partitionsP∞telle que, pour tout n≥1, si{A1, ...,Ap}est une partition deJ1,nK, avec|A1|=k1, ...,|Ap|=kp, alors on a P(ρnΠ ={A1, ...,Ap}) =ψ(k1, ...,kp) pour une certaine fonctionψsymétrique. Proposition 11.SiΠest une telle partition, les fréquences asymptotiques An fi=lim|i|(1.5) n→∞n existent presque sûrement, où l’on a noté Ain plus grand bloc de la restriction de -èmele i ΠàJ1,nK. Démonstration.Sur le même espace de probabilité, soit(Ui)une suite iid de v.a. uni-formes sur[0, 1], indépendantes deΠ. Si on ordonne les blocs deΠsuivant leur plus petit élémentA1, ..., posonsXn=Uisin∈Ai. La suite(Xn)n≥1est alors échangeable. Il existe donc une mesure aléatoireFsur[0,1]telle que, conditionnellement àF, les (Xn)sont iid de loiF. En notantFnles mesures empiriques 1n Fn(r) =X1Xi≤r ni=1 on voit en combinant le théorème de de Finetti et le théorème de Glivenko-Cantelli2 que, conditionnellement àF, la suite de fonctions(Fn)converge uniformément vers la fonction de répartition deF, presque sûrement. Or, on a, pour toutn, en regroupant ensemble lesXicorrespondant aux blocs de ρnΠrangés par cardinal décroissant, Fn(r) =n|Ani| 1X1∞n1Uˆn,i≤r ni=1Xi≤r=i=X1(1.6) 2. Si(Xn)est une suite de v.a. iid, les mesures empiriquesn−1Pk≤n1Xk≤∙convergent uniformément surRvers la fonction de répartition de leur loi commune, presque sûrement. 9
ˆ ˆ où les(Un,i)i≥1sont un certain réordonnement des(Ui)(Un,i=Ujsijest l’indice deAindans la suite des blocsρnA1, ... ordonnée suivant le plus petit élément). Par convergence uniforme, on voit alors que|Ain|/n, qui est lei-ème plus grand saut de Fnconverge p.s. vers lei-ème plus grand saut de la fonction de répartition deF. Les fréquencesf= (f1, ...)forment une famille de réels positifs, telle quePfi≤1, par le lemme de Fatou. C’est la famille desfréquences asymptotiquesde la partition aléatoireΠ. Définition 12.On noteS↓={(xi)∈R+N,x1≥x2≥...≥0 etPxi≤1}. On vérifie facilement, commeS↓est un sous-espace fermé de[0, 1]N, que, muni de la topologie de la convergence uniforme,S↓est un espace compact. La famille des fréquences asymptotiques d’une partition aléatoire échangeable constitue un élément aléatoire deS↓. Si de plusPfi=1, on dit queΠpossède des fréquencespropreset ¯ on notef∈ S↓. On peut, de façon simple, associer à un élément deS↓une partition aléatoire deN. Sif∈ S↓, on se donne une famille(Un)de v.a à valeurs dansN, iid de loi donnée parP(Un=k) =fketP(Un=0) =1−Pfi. Ensuite, on définit une partition aléatoireπ(f)par i∼j⇔Ui6=0 etUj6=0 etUi=Uj Il est clair que la partitionπ(f)est échangeable, puisque lesUnsont iid. NotonsPfla loi de cette partition. Ce procédé, classique, est dû à Kingman ([Kin82b]). On l’ap-pelle procédé des boîtes de peinture (paintbox scheme), puisqu’on peut se représenter les valeurs prises par les(Un)comme différentescouleursen lesquelles on a peintN. En particulier, les entiers tels queUn=0 constituent un ensemble de singletons dans la partitionπ(f), appellée « poussière ». Si maintenant on choisitfaléatoire dansS↓, de loiQ, alors on obtient une parti-tion aléatoire échangeable de loi P=ZQ(df)Pf(1.7) En fait, dans l’article original, Kingman démontre que toutes les partitions aléa-toires échangeables sont de cette forme, des mélanges aléatoires de boîtes de peinture. Théorème 13.(Kingman) SiΠest une partition échangeable aléatoire, sifsont ses fré-quences asymptotiques, alors la loi deΠconditionnellement àfestPfet donc la loi deΠ est donnée par (1.7). Démonstration.Reprenons la démonstration de la proposition 11. NotonsBla fonc-tion de répartition deFque la suite décroissante des sauts de. Remarquons Ba la même loi quef. Soit alors une suite iid(Vi)de variables uniformes sur[0,1], indé-pendante deF. Conditionnellement àF, la suite(B−1(V1), ...)est alors iid, de loiF, c es e ’ t-à-dire que cette suite a la même loi que la suite(X1, ...). CommΠest la parti-tion deNdont les blocs sont les indicesitels que lesXisont égaux, on voit que deux entiersietjsont dans le même bloc deΠsi et seulement siB−1(Vi) =B−1(Vj). Or, on voit facilement3que, vu la répartition des masses des atomes deF, la partition aléatoire définie parB−1(Vi) =B−1(Vj)bien une boîte de peinture engendrée parest les fréquencesf. 3. Cette construction sera reprise en détail dans le chapitre 2 : on peut l’étendre et elle forme la base de la correspondance de Bertoin-Le Gall 10