Validation de la droite de régression par l’étude des résidus ei

icon

2

pages

icon

Catalan

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

2

pages

icon

Catalan

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Validation de la droite de régression par l’étude des résidus ei Outre le coefficient de corrélation, une autre méthode permet d’évaluer la représentativité d’une droite de régression comme relation entre deux variables : l’étude des résidus. Pour chaque point ( x , y ) du diagramme de dispersion on peut calculer le résidu e qui est la différence entre la valeur i i ide y observée et la valeur de Y prédite par la droite de régression ( e = y − Y ). Évidemment, plus i i i ila droite est un bon modèle, plus ces résidus seront faibles. Ces résidus e sont aléatoires et on peut supposer qu’ils suivent une Loi Normale de moyenne 0 ( i2 2car ∑e = 0 ) d’où : e ~ N ( 0, σ ). La variance σ des e est alors un reflet de la validité du modèle : i i iplus elle est faible, plus les e sont concentrés autour du centre 0 et, donc, plus les points sont iproches de la droite de régression. 22 $∑ e2 iOn peut montrer que le meilleur estimateur pour σ est : où n −2 représente le nombre $σ = n − 2 de degrés de liberté (on a ici 2 variables) $$De plus, comme les estimateurs a et b sont construits de façon à minimiser les résidus, ils sont donc dépendants de cette variance des résidus. On peut alors en déduire un estimé de la variance 2$ $de a$ et b par rapport à σ . Cela nous donnera les formules suivantes : 22 $2   n σ$ ∑ xσ ()i $  Var ( b ) = a$ 1 + 2 Var ( ) = 2 22n nx∑−∑x ...
Voir icon arrow

Publié par

Nombre de lectures

56

Langue

Catalan

Validation de la droite de régression par l’étude des résidus e
i
Outre le coefficient de corrélation, une autre méthode permet d’évaluer la représentativité d’une
droite de régression comme relation entre deux variables : l’étude des résidus. Pour chaque point (
x
i
, y
i
) du diagramme de dispersion on peut calculer le résidu e
i
qui est la différence entre la valeur
de y
i
observée et la valeur de Y prédite par la droite de régression ( e
i
= y
i
Y
i
). Évidemment, plus
la droite est un bon modèle, plus ces résidus seront faibles.
Ces résidus e
i
sont aléatoires et on peut supposer qu’ils suivent une Loi Normale de moyenne 0 (
car
e
i
= 0 ) d’où :
e
i
~ N ( 0,
σ
2
)
. La variance
σ
2
des e
i
est alors un reflet de la validité du modèle :
plus elle est faible, plus les e
i
sont concentrés autour du centre 0 et, donc, plus les points sont
proches de la droite de régression.
On peut montrer que le meilleur estimateur pour
σ
2
est :
ù n
2 représente le nombre
σ
o
$
2
=
$
e
i
2
de degrés de liberté
(on a ici 2 variables)
n
2
De plus, comme les estimateurs
et
sont construits de façon à minimiser les résidus, ils sont
donc dépendants de cette variance des résidus. On peut alors en déduire un estimé de la variance
de
et
par rapport à
. Cela nous donnera les formules suivantes :
$
a
$
b
$
a
$
b
$
σ
2
Var ( ) =
$
a
(
)
(
)
$
σ
2
2
2
2
1
n
x
n
x
x
i
i
i
+
Var ( ) =
$
b
(
)
n
n
x
x
i
i
$
σ
2
2
2
Finalement, on peut montrer que les estimateurs
et
tendent à se comporter selon une
Loi
de Student
à
n
2
degrés de liberté. Donc, connaissant la variance de ces estimateurs, il nous
sera possible de construire des intervalles de confiance pour cerner les vraies valeurs de a et b de
la droite de régression
Y = a + bX
.
$
a
$
b
Pour un exemple de la taille de plants Y vs le temps X on aurait : (où on obtient : Y = 4,6 + 0,72 X )
x
i
y
i
x
i
y
i
x
i
2
y
i
2
Y
i
(prédit)
e
i
e
i
2
1
5,2
5,2
1
27,04
5,32
-0,12
0,0144
2
6,1
12,2
4
37,21
6,04
0,06
0,0036
3
6,9
20,7
9
47,61
6,76
0,14
0,0196
4
7,5
30,0
16
56,25
7,48
0,02
0,0004
5
8,1
40,5
25
65,61
8,20
-0,10
0,0100
15
33,8
108,6
55
233,72
0
0,0480
On obtient donc que
=
$
σ
2
$
e
n
i
2
2
=
0 048
3
,
=
0,016
. Cette variance faible montre que le lien entre Y et
X est bien expliqué par la droite de régression. On peut également évaluer :
Var ( ) =
$
a
(
)
(
)
$
σ
2
2
2
2
1
n
x
n
x
x
i
i
i
+
=
0 016
5
1
15
50
2
,
+
=
0,0176
Var( ) =
$
b
(
)
n
n
x
x
i
i
$
σ
2
2
2
=
5
0
0
1
6
50
,
=
0,0016
On peut alors construire des intervalles de confiance de niveau 95% où t
α
/2
à n
2 = 3 degrés de
liberté vaut 3,18
a
[ 4,6
±
3,18
0 0176
,
] = [ 4,18 ; 5,02 ]
et
b
[ 0,72
±
3,18
0 0016
,
] = [ 0,59 ; 0,85 ]
REM : si 0
à l’intervalle de confiance de b, on peut remettre en doute la relation linéaire entre Y
et X.
Il est également possible de construire un intervalle de confiance (appelé
intervalle de prévision
)
pour la valeur prédite Y associée à une valeur x de la droite de régression : Y = â +
X. La valeur
prédite Y suivra, elle aussi, une
Loi de Student
à
n -2
degrés de liberté et sa variance est évaluée
par :
$
b
Var ( Y ) =
$
(
)
(
)
/
2
2
2
2
1
1
+
+
n
x
x
x
x
i
i
σ
Cette variance est donc différente pour chaque valeur de x
utilisée.
n
On peut remarquer le facteur
(
x
x
2
)
qui fait augmenter la variance quand les valeurs de x
considérées s’éloignent du centre du nuage. Ce facteur prend encore plus d’ampleur quand on
utilise la droite de régression pour effectuer une prédiction sur une valeur de x à l’extérieur de
l’intervalle des valeurs qui ont été observées.
La variance de Y peut également s’exprimer sous la forme suivante :
Var ( Y ) =
$
(
)
(
)
σ
2
2
2
2
1
n
n
nx
x
n
x
x
i
i
i
+
+
Si on reprend l’exemple précédent pour prédire la taille en cm d’un plant après deux semaines et
demies on aurait :
Y = 4,6 + 0,72 • 2,5 = 6,4 cm. La variance de cette valeur prédite Y est alors de :
Var ( Y ) =
$
(
)
(
)
σ
2
2
2
2
1
n
n
nx
x
n
x
x
i
i
i
+
+
=
0 016
5
5
1
5
2
5
1
5
50
2
,
(
,
+
+
)
=
0,0196
En utilisant un niveau de confiance de 95%, on obtient que t
α
/2
à n
2 = 3 degrés de liberté vaut
3,18 ce qui nous permet alors d’associer à cette prédiction l’intervalle de prévision suivant :
y
[
]
Y
t
V
a
r
Y
±
α
2
(
)
y
[
]
6 4
3 18
0 0196
,
,
,
±
y
[
à un niveau de confiance de 95%
]
5 95 6 85
,
;
,
Voir icon more
Alternate Text