Validation de la droite de régression par l’étude des résidus ei Outre le coefficient de corrélation, une autre méthode permet d’évaluer la représentativité d’une droite de régression comme relation entre deux variables : l’étude des résidus. Pour chaque point ( x , y ) du diagramme de dispersion on peut calculer le résidu e qui est la différence entre la valeur i i ide y observée et la valeur de Y prédite par la droite de régression ( e = y − Y ). Évidemment, plus i i i ila droite est un bon modèle, plus ces résidus seront faibles. Ces résidus e sont aléatoires et on peut supposer qu’ils suivent une Loi Normale de moyenne 0 ( i2 2car ∑e = 0 ) d’où : e ~ N ( 0, σ ). La variance σ des e est alors un reflet de la validité du modèle : i i iplus elle est faible, plus les e sont concentrés autour du centre 0 et, donc, plus les points sont iproches de la droite de régression. 22 $∑ e2 iOn peut montrer que le meilleur estimateur pour σ est : où n −2 représente le nombre $σ = n − 2 de degrés de liberté (on a ici 2 variables) $$De plus, comme les estimateurs a et b sont construits de façon à minimiser les résidus, ils sont donc dépendants de cette variance des résidus. On peut alors en déduire un estimé de la variance 2$ $de a$ et b par rapport à σ . Cela nous donnera les formules suivantes : 22 $2 n σ$ ∑ xσ ()i $ Var ( b ) = a$ 1 + 2 Var ( ) = 2 22n nx∑−∑x ...