Jean-Franc¸ois Delmas Introduction au calcul des probabilit´es et `a la statistique 30 mars 2010 ENSTA ParisUn bref historique Le calcul des probabilit´es “Un probl`eme relatif aux jeux de hasard propos´e `a un aust`ere jans´e- nisteparunhommedumondea´et´e`al’originedu calculdesprobabilit´es” DenisPoisson (1781-1840).LeChevalier de M´er´e proposaa`Blaise Pascal (1623-1662) des probl`emes sur les jeux de hasard dont le“probl`eme des parties”: Le prix d’un tournoi est gagn´e par le premier participant qui remporte un nombre fix´e de parties. Si l’on interrompt le jeu avant la fin, comment r´epartir ´equitablement le prix entre les participants? De nom- breusessolutionsfausses avaient´et´epropos´eespourceprobl`emevieux de deux si`ecles. Pascal en donna une solution correcte qu’il soumit `a Pierre de Fermat (1601-1665) en 1654. Il publia sa solution dans son“Trait´e du triangle arithm´etique”en 1665. En 1657, le livre“De ratiociniis in ludo aleae”de Christiaan Huygens (1629-1695)exposa les concepts fondamentaux du calcul des probabilit´es commelecalculdel’esp´eranced’unevariableal´eatoireprenantunnombre fini de valeurs. Dans son ouvrage posthume“Ars conjectandi”en 1713, Jacques Ber- noulli (1654-1705) approfondit les r´esultats de Huygens. Il d´emontra aussi, `a l’aide du calcul combinatoire, la loi des grands nombres (conver- gence de la moyenne empirique vers la moyenne) qui fut `a l’origine de l’essor des probabilit´es. En 1733, dans“The doctrine of chances”, Abra- ham de ...
Jean-Franc¸ois Delmas
Introduction au
calcul des probabilit´es
et `a la statistique
30 mars 2010
ENSTA
ParisUn bref historique
Le calcul des probabilit´es
“Un probl`eme relatif aux jeux de hasard propos´e `a un aust`ere jans´e-
nisteparunhommedumondea´et´e`al’originedu calculdesprobabilit´es”
DenisPoisson (1781-1840).LeChevalier de M´er´e proposaa`Blaise Pascal
(1623-1662) des probl`emes sur les jeux de hasard dont le“probl`eme des
parties”: Le prix d’un tournoi est gagn´e par le premier participant qui
remporte un nombre fix´e de parties. Si l’on interrompt le jeu avant la fin,
comment r´epartir ´equitablement le prix entre les participants? De nom-
breusessolutionsfausses avaient´et´epropos´eespourceprobl`emevieux de
deux si`ecles. Pascal en donna une solution correcte qu’il soumit `a Pierre
de Fermat (1601-1665) en 1654. Il publia sa solution dans son“Trait´e du
triangle arithm´etique”en 1665.
En 1657, le livre“De ratiociniis in ludo aleae”de Christiaan Huygens
(1629-1695)exposa les concepts fondamentaux du calcul des probabilit´es
commelecalculdel’esp´eranced’unevariableal´eatoireprenantunnombre
fini de valeurs.
Dans son ouvrage posthume“Ars conjectandi”en 1713, Jacques Ber-
noulli (1654-1705) approfondit les r´esultats de Huygens. Il d´emontra
aussi, `a l’aide du calcul combinatoire, la loi des grands nombres (conver-
gence de la moyenne empirique vers la moyenne) qui fut `a l’origine de
l’essor des probabilit´es. En 1733, dans“The doctrine of chances”, Abra-
ham de Moivre (1667-1754) pr´ecisa dans un cas particulier la vitesse de
convergence de la loi des grands nombres; ce fut la premi`ere version du
th´eor`eme central limite. Ce r´esultat fut´etendu par Pierre-Simon Laplace
(1749-1827). Ce dernier en utilisant le calcul infinit´esimal et en d´eve-loppant les fonctions g´en´eratrices et les fonctions caract´eristiques dans
“Th´eorie analytique des probabilit´es”, paru en 1812, d´epassa le cadre du
calcul combinatoire et donna un nouvel ´elan au calcul des probabilit´es.
Les r´esultats g´en´eraux sur la loi des grands nombres et le th´eor`eme
ecentrallimitefurent´etablisauXIX si`ecleparDenisPoisson(1781-1840),
Ir´en´ee-Jules Bienaym´e (1796-1878)et l’´ecole de St Petersbourg avec Paf-
nouti Tchebychev (1821-1894),Andre¨ı Markov (1856-1922)et Alexandre
Liapounov (1857-1918).
eAu XX si`ecle, la th´eorie de la mesure et de l’int´egration permit de
clarifier les notions du calcul des probabilit´es : mesures de probabilit´e,
variables al´eatoires, lois, esp´erances, lois conditionnelles. La monogra-
phie d’Andreı Kolmogorov (1903-1987)“Grundbegriffe des Wahrschein-¨
lichkeitsrechnung” parue en 1933 donna le cadre th´eorique dans lequel
s’exprime encore aujourd’hui le calcul des probabilit´es.
eD`eslapremi`eremoiti´eduXX si`ecle, lecalculdesprobabilit´esconnaˆıt
un nouvel essor avec l’´etude des processus stochastiques et surtout leurs
nombreuses applications. Celles-ci se sont multipli´ees dans la deuxi`eme
moiti´e du si`ecle : mod´elisation de ph´enom`enes physiques (en particulier
au niveau microscopique pour les fluides complexes ou les mat´eriaux et
en physique statistique) ou biologique (en d´emographie et´epid´emiologie,
mais aussi au niveau de la cellule ou de l’ADN), en informatique (ana-
lyse d’algorithmes, d’images ou de r´eseaux), en ´economie (assurance ou
finance de march´e) ainsi que dans les sciences de l’ing´enieur (fiabilit´e,
optimisation, analyse de risque, maˆıtrise de l’environnement al´eatoire).
Enfin, avec la puissance accrue des ordinateurs, les simulations et les m´e-
thodes de Monte-Carlo, d´evelopp´ees dans les ann´ees 1940, ont amplifi´e
l’utilisation des mod`eles al´eatoires et sont devenues un domaine impor-
tant des probabilit´es.
La statistique
Le mot“statistique”vient de l’allemand“Statistik”, qui, au milieu du
e ´XVII si`ecle, d´esigne l’analyse des donn´ees utiles `a l’Etat. Le traitement
d’un grand nombre de donn´ees chiffr´ees qui sont tri´ees, class´ees ou r´e-
sum´ees correspond `a ce que l’on appelle aujourd’hui“les statistiques”au
pluriel. On les distingue de“la statistique”, au singulier, qui correspond
`a la mod´elisation de ces donn´ees, vues comme r´esultats d’exp´eriences en
pr´esence d’al´ea, et `a l’´etude de cet al´ea.
VIIIeOn peut dater l’´emergence de la statistique du d´ebut du XIX si`ecle,
avec l’´etude de donn´ees provenant de l’astronomie sur les positions des
plan`etes et leur trajectoire. En particulier, en 1805 Adrien-Marie Le-
gendre (1752-1832)introduisit la m´ethode des moindres carr´es pour esti-
mer des coefficients `a partir de donn´ees, et en 1809 Carl Friedrich Gauss
(1777-1855), utilisant une mod´elisation des erreurs par la loi normale,
retrouva en maximisant la densit´e de la loi normale des erreurs (i.e. la
vraisemblance ou loi a posteriori) l’estimation par moindres carr´es. Ces
travauxinfluenc`erentPierre-SimonLaplace(1749-1827)quien1810mon-
traquelaloinormaleapparaˆıtnaturellementcommeloideserreursgrˆace
au th´eor`eme central limite. Dans son livre sur“l’homme moyen”en 1835,
AdolpheQuetelet (1796-1874)utilisales r´esultatsdeLaplacepouranaly-
ser des donn´ees sociales `a l’aide de la loi normale, et montrer la stabilit´e
de ces donn´ees sur plusieurs ann´ees.
eIlfautattendrelafindu XIX si`eclepourunenouvelle avanc´eedansle
domaine de la statistique. En 1885, Francis Galton (1822-1911) pr´esenta
une ´etude sur la taille des garc¸ons en fonction de la taille moyenne des
parents. Il observa `a la fois un ph´enom`ene de d´ependance, qui sera tra-
duit par un effet de corr´elation, et de retour `a la moyenne ou r´egression.
KarlPearson (1857-1936)et Udny Yule (1871-1951),`a partirdes travaux
de Francis Edgeworth (1845-1926) sur les lois normales multidimension-
nelles, ´etendirent la r´egression lin´eaire `a un cadre plus g´en´eral. Il faut
2´egalement souligner les tests d’ad´equation du χ introduits par Pearson
een biom´etrie `a la fin du XIX si`ecle.
eAu d´ebut du XX si`ecle, les ann´ees 1920 sont marqu´ees par les tra-
vaux fondamentaux de Ronald Fisher (1890-1962) qui sont motiv´es par
desprobl`emesd’agronomie.Fisherintroduisitenparticulierlesnotionsde
mod`ele statistique, d’exhaustivit´e et d’estimateur du maximum de vrai-
semblance. L’utilisation de mod`eles statistiques permit ainsi d’analyser
des donn´ees peu nombreuses. Signalons´egalement sur le mˆeme th`eme les
r´esultats de William Gosset (1876-1937) pour les ´echantillons gaussiens.
Travaillant pour la brasserie Guiness, il prit le pseudonyme de Student
pour publier ses travaux.
Motiv´e par l’´etude des effets de diff´erents traitements en agriculture,
Jerzy Neyman (1894-1981)introduisit en 1934 puis d´eveloppa avec Egon
Pearson (1895-1980) l’estimation par intervalles de confiance et les tests
d’hypoth`eses. Le nom d’hypoth`ese“nulle”provient de l’hypoth`ese corres-
pondant `a l’absence d’effet du traitement consid´er´e. En 1940, Abraham
IXWald (1902-1950)proposa une vision unifi´ee de la th´eorie de l’estimation
et des tests d’hypoth`eses.
`A partir des ann´ees 1950, la statistique connaˆıt une croissance expo-
nentielle avec des applications dans tous les domaines : sciences de l’in-
g´enieur, sciences exp´erimentales, sciences sociales, m´edecine et sciences
du vivant, ´economie, ... Elle est devenue un outil incontournable pour
l’analyse et la compr´ehension des donn´ees.
XTable des mati`eres
partie I Calcul des probabilit´es
I Espaces probabilis´es 3
I.1 Vocabulaire ....................................... 3
I.2 Probabilit´es ....................................... 4
I.3 Probabilit´es sur un ensemble fini ou d´enombrable....... 8
I.4 La mod´elisation (I)................................. 9
I.5 D´enombrement .................................... 11
I.6 Probabilit´es conditionnelles.......................... 13
I.7 Ind´ependance...................................... 15
I.8 Mod´elisation (II)................................... 16
I.9 Rappels sur les ensembles ........................... 17
I.10 Compl´ements sur les espaces mesurables et les fonctions
mesurables ........................................ 17
I.11 R´esum´e........................................... 20
I.12 Exercices.......................................... 22
II Variables al´eatoires discr`etes 29
II.1 Variables al´eatoires................................. 30
II.2 Exemples de variables al´eatoires discr`etes.............. 31
II.3 Loi d’un vecteur, lois marginales ..................... 33
II.4 Variables al´eatoires discr`etes ind´ependantes (I) ......... 35
II.5 Sch´ema de Bernoulli et autres exemples ............... 37
II.6 Changement de variable............................. 44
II.7 Esp´erance d’une variable al´eatoire quelconque.......... 45
II.8 Esp´erance d’une variable al´eatoire discr`ete............. 49Table des mati`eres
II.9 Variance et Covariance.............................. 53
II.10 Ind´ependance (II) .................................. 54
II.11 Loi faible des grands nombres........................ 58
II.12 Fonctions g´en´eratrices .............................. 59
II.13 Ind´ependance (III) ................................. 62
II.14 Lois conditionnelles et esp´erances conditionnelles ....... 63
II.15 Rappels sur les s´eries et les s´eries enti`eres ............. 69
II.16 R´esum´e........................................... 72
II.17 Exercices.......................................... 76
III Variables al´eatoires `a densit´e 89
III.1 D´efinitions ........................................ 90
III.2 Lois marginales .................................... 93
III.3 Esp´erance......................................... 95
III.4 Lois usuelles....................................... 96
III.5 Autres lois ........................................ 99
III.6 Ind´ependance...................................... 102
III.7 Calcul de lois ...................................... 104
III.8 Lois conditionnelles................................. 107
III.9 Simulation ........................................ 109
III.10 Rappels sur l’int´egration ..............