StatistiquesI. Moyenne, variance et écart-type d’une série statistique 1. Série statistique discrète : Exemple d’une série statistique discrète : Prenons le cas d’une classe de 23 élèves qui réalisent un devoir noté sur 5. La série statistique discrète suivante présente les notes des élèves : Note0 1 2 3 4 5Total Nombre 1 2 8 9 2 123 d’élève On peut donc voir par exemple que 2 élèves ont obtenu la note de 4/5. La taille de cette série est 23, c’est-à-dire le nombre d’élèves. On peut également calculer les fréquences : Note0 1 2 3 4 5Total Nombre 1 2 8 9 2 123 d’élève 1 2 8 9 2 1 Fréquence 1 23 23 23 23 23 23 D’une façon générale, on note : Valeur…Total 12Effectifnnnn… 12 n nn 1 2p Fréquencef1f2 …fp11 n n n n, effectif total, est aussi appelé taille de la série. 2. Moyenne : La moyenne de cette série statistique discrète, généralement notée, est définie par :
n xn x#...#n x 1 12 2p p x1 n soit en plus condensé : p 1 1n x i i ni11 Remarque :preprésente le nombre de valeurs différentes Dans l’exemple du 1., la moyenne est donc : 6 1 moyenne1x1n xi i 23i11 1 58 moyenne1x1(1´0#2´1#8´2#9´3#2´4#1´51!≃2, 523 23 3. Variance : La variance d’une série statistique discrète est généralement notéeVet est définie par : 2 p 1 ∑i(i! V1n x%x ni11 On pourrait également démontrer que : p 12 2 ∑V nx%x i i ni11 Dans l’exemple du 1., la variance est donc : 2 6 1258 ∑i i variance1V1n x%23i11 23 2 158 V1(1´0²#2´1²#8´2²#9´3²#2´4²#1´5²!% 2323 2 2 15817258 V1(2#8´4#9´9#2´16#1´25!%% 1≃1,12 23232323
4. Ecart-type : L’écart-type d’une série statistique discrète est généralement notéset est défini par : s1VL’écart-type est la racine carrée de la variance. L’écart-type représente l’écart moyen des valeurs de la série par rapport à sa moyenne. Une série statistique très dispersée (dont les valeurs sont très éloignées de la moyenne) aura un écart-type important. A l’inverse, une série dont les valeurs sont très proches de la moyenne aura un écart-type faible. Dans l’exemple du 1., l’écart-type est: s≃1,12≃1, 06II. Effet d’une transformation affine Soit une série statistique,navec1£i£pet de taillen. i i On notela moyenne de cette série et d’écart-types. x Considéronsaetb, deux réels. On définit la série statistiquey,navec 1£i£pet de taille i i npar la transformation affine suivante :y ax#b. i i Cette nouvelle série statistique a pour moyennexy a#bet pour écart-types1as. x III. Médiane et interquartiles 1. Quartiles : Considérons une série statistique, de taillen, et dont les termes sont rangées dans l’ordre croissant (£x£...£x). 1 2n Remarque : lesxreprésentent ici les termes de la série et non les valeurs. Dans l’exemple du I.1. on aurait doncx0 ,x1,x1 ,x2 ,x2 …,x4 ,x5 . 1 23 45 2223
- Le premier quartile, généralement notéQest la plus petite valeur de la série pour laquelle 1 au moins ¼ (25%) des données sont inférieures ou égale àQ. 1 - Le troisième quartile, généralement notéQest la plus petite valeur de la série pour laquelle 3 au moins ¾ (75%) des données sont inférieures ou égale àQ. 3 On définit également l’intervalle interquartile :Q;Q]. 1 3 L’écart interquartile se définit par :Q Q. 3 1 2. Médiane : La médiane d’une série est la valeur séparant les termes en deux « groupes » de même effectif. Autrement dit, si on noteMla médiane, on peut dire que au moins ½ (50%) des données sont inférieures ou égales àMETau moins ½ des données sont supérieures ou égales àM. Méthode de calcul de la médiane : Sinest impair (c’est le cas le plus facile), la médiane est le terme central :1xn1 2 x n n 1 2 2 Sinest pair, la médiane est la moyenne des deux termes centraux :M12 Dans l’exemple du I.1,n23 est donc impair, on a doncM x1x13 23#1 12 2 3. Exercice d’application : Enoncé : Des biologistes capturent 20 truites dans une rivière et les mesurent. Ils obtiennent les chiffres suivant (en cm, classés dans l’ordre croissant) : x8 ,x10 ,x10 ,x13 ,x13 ,x14 ,x14 ,x15 ,x16 ,x16 , 1 23 4 56 7 8 9 10 x16 ,x17 ,x18 ,x19 ,x19 ,x21,x22 ,x22 ,x25 , 11 1213 14 1516 1718 19 x26 . 20 Donner la moyenne, la variance, l’écart-type, le premier quartile, le troisième quartile, l’intervalle interquartile, l’écart interquartile et la médiane de cette série.
Résolution de l’exercice : La taille de cette série est 20 (il y a 20 éléments dans la série). La moyenneest la somme de toutes les valeurs divisée par la taille de la série : moyenne 16,7 Pour calculerla variance, on repart de la formule : 2 p 1 ∑i(i! V1n x%x ni11 1 2 2 2 22 22 V1(8%16, 7!#2(10%16, 7!#2(13 1%6, 7! (2#14 1%6,!7(#15 16%,!7(3#16 16%,!7(17#16,!%7 20 2 22 22 2 2 (17%16, 7!#(18%16, 7!#2 1(9 1%6, 7!#2(1 1%6, 7!2#2(2 16%, 7!2#(5 16%, 7!2#6(16,%7! V22, 71L’écart-typeest la racine carrée de la variance : s1V122, 71≃4, 77Détermination despremier et troisième quartiles: Il y a 20 éléments en tout. 1 2015 , doncle premier quartileQ x113 .Le premier quartile vaut 13 (13 est donc la 1 5 4 plus petite valeur pour laquelle au moins ¼ des données sont inférieures ou égale à elle-même). 3 20115 , doncle troisième quartileQ x119 .Le premier quartile vaut 19 (19 est 3 15 4 donc la plus petite valeur pour laquelle au moins ¾ des données sont inférieures ou égale à elle-même). L’intervalle interquartileest donc13;19]. L’écart interquartilevautQ Q119%1316 . 3 1 x x 20 20 #1 x#x16#16 2 210 11 Calculonsla médiane: ici,npair donc20 estM11 1162 22
IV. Diagrammes en boîte Les diagrammes en boîte, également appelés boîtes à moustaches ou diagrammes de Tukey, permettent de représenter visuellement l’ensemble d’une série statistique. Méthode de construction : Sur un axe horizontal (ou vertical), on place les cinq valeurs suivantes : le minimum, le maximum, la médiane, le premier quartileQet le troisième quartileQ. 1 3 On construit un rectangle horizontal (ou vertical) allant deQàQ. Son grand côté est 1 3 donc égal à l’écart interquartileQ Q. 3 1 Ce rectangle est séparé par un segment passant par la médiane. On ajoute ensuite deux segments : l’un allant deQau minimum et l’autre allant deQ1 3 au maximum. minimum maximum er ème 1 quartilemédiane 3quartile Reprendre la série statistique duIII.3.et construire le diagramme en boîte de cette série :