26
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe en t'inscrivant gratuitement
Découvre YouScribe en t'inscrivant gratuitement
26
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
ADE-4
Régression linéaire
Résumé
La fiche décrit deux méthodes de régression linéaire (module LinearReg)
dans le cadre d’un problème de prédiction d’une variable biologique par des
variables d’environnement, problème posé dans un article récent de P. Baran
& Coll. (1993 Bull. Fr. Pêche Piscic : 331, 321-340). On accorde une certaine
importance à l’examen des variables initiales et à la définition de l’objectif visé.
On aborde la régression multiple classique, les difficultés qu’elle soulève, et la
solution proposée par la régression PLS, ou régression partiellement aux
moindres carrés. Inventée en chimiométrie, dont elle est un standard
méthodologique la régression PLS gagne à être connue en écologie.
L’algorithme utilisé est décrit par Ter Braak & Juggins (1993, Hydrobiologia :
269/270: 485-502, p. 487).
Plan
1 — Le problème : Habitat et abondance de la truite commune ....... 2
2 — Liaisons entre variables à prédire.............................................. 3
2.1 — Changement de variable préliminaire .................... 3
2.2 — L’automodélisation par ACP normée ..................... 7
2.3 — Régression et projection : approche élémentaire 10
3. — Liaisons entre variables explicatives ...................................... 12
4 — MLR : la régression linéaire multiple........................................ 16
5 — Sélection de variables en régression linéaire .......................... 19
6 — Régression PLS....................................................................... 24
Références ...................................................................................... 26
D. Chessel et J. Thioulouse
______________________________________________________________________
ADE-4 / Fiche thématique 3.2 / 97-07 / — page 11 — Le problème : Habitat et abondance de la truite
commune
1Un article récent de P. Baran & Coll. pose avec une précision incontestable la
notion de variables instrumentales du point de vue de l’expérimentateur. Le résumé est
explicite :
Les relations entre les caractéristiques de l'habitat et les biomasses et densités de
truites communes (Salmo trutta L.) ont été recherchées dans 33 stations de la rivière
Neste d'Aure et trois de ses affluents: la Neste du Louron, la Neste du Rioumajou et le
ruisseau d'Espiaube dans le département des Hautes-Pyrénées. L'étude a été conduite
sur un cycle annuel.
Dans un premier temps, la validité du modèle d'lndice de Qualité d'Habitat (HQI)
(BINNS et EISERMAN, 1979), basé sur 10 variables de l'habitat, a été testée. Les
biomasses théoriques prévues par le modèle ne sont pas linéairement corrélées aux
biomasses observées par pêche électrique. Le meilleur ajustement linéaire est obtenu
grâce à des transformations par les logarithmes. Toutefois, la pente de la droite de
régression est significativement différente de 1 (t = 2.53 (p<0.01)). Le modèle de
l'lndice de Qualité d'Habitat ne constitue pas, dans le cas de la vallée d'Aure, un outil
satisfaisant de prévision des biomasses de truites.
Dans un deuxième temps, I'influence de chaque variable de l'habitat a été testée
individuellement. Les biomasses observées sont significativement corrélées à l'altitude
(entre 1350 et 600 m), aux surfaces d'abris, à la température mensuelle maximale (pour
une gamme allant de 10 à 16 °C), à la conductivité électrique, à la vitesse moyenne au
fond, à la profondeur moyenne et au rapport largeur/profondeur. Les densités sont
significativement corrélées aux mêmes variables, à l'exception de la profondeur
moyenne; il faut également ajouter des corrélations significatives avec la pente de la
ligne d'eau et la largeur de la rivière. L'étude par classe d'âge montre que l'abondance de
la cohorte 0+ est liée à l'altitude, la température et la conductivité. La largeur moyenne
constitue la seule caractéristique de l'habitat physique corrélée avec les biomasses et
densités de 0+. L'étude par saison indique seulement une corrélation négative entre les
densités et biomasses échantillonnées en hiver et la profondeur moyenne. En ce qui
concerne la cohorte 1+, on observe des corrélations avec les mêmes variables altitude,
température et conductivité auxquelles il faut ajouter la variable abris. Les densités de
truites de taille supérieure à la taille légale de capture (180 mm) sont positivement
corrélées à la surface d'abris, la profondeur moyenne, la température et la conductivité,
et négativement avec l'altitude.
Dans une troisième étape, à partir de régressions multiples progressives, il a été
possible d'établir un modèle statistique à 5 variables qui explique 86% de la variation de
biomasse totale de truites. Ce type d'outil peut constituer un élément de gestion pour les
populations de truites de la Vallée de la Neste d'Aure.
Les auteurs nous permettrons de reproduire exactement le tableau de données
publiées (op. cit. p. 327) dans le tableau 1. Il s’agit clairement d’une question de modèle
prédictif de l’abondance des individus d’une espèce par les paramètres
environnementaux. Les auteurs citent un article de 1988 qui propose 70 modèles
permettant d’estimer l’abondance des salmonidés à partir des variables de l’habitat
(op. cit. p. 322). C’est donc une question qui intéressent les écologues pratiquant la
statistique.
Il s’agit de variables instrumentales parce qu’on trouve deux ensembles de variables
formés d’une part des variables explicatives ou prédictrices, d’autre par des variables à
prédire. Lorsqu’il n’y a qu’une variable à prédire et plusieurs explicatives (régression
multiple) la situation est simple.Elle se complique ici, et le résumé cité le montre bien,
______________________________________________________________________
ADE-4 / Fiche thématique 3.2 / 97-07 / — page 2en ce sens qu’on peut multiplier les modèles indépendants pour chacune des variables à
expliquer ou qu’au contraire on peut chercher des modèles communs à plusieurs
variables.
Stations Altitude Temp. Cond. Pente Larg. Prof. V. Fond V. Surf Abris DensInv Module Debit E.
N1 1017 12 169 1.8 5.6 0.23 0.29 0.55 16 139 482 53
N2 1010 12.2 162 2.02 8.4 0.2 0.3 0.41 7 104 1281 23.5
N3 970 12.6 155 4 7 0.3 0.32 0.48 19 120 1350 25
N4 830 13 165 0.5 5 0.3 0.26 0.73 22 727 2575 26
N5 800 11 93 2.6 14.5 0.32 0.52 1.45 5 321 8205 36
E1 1100 10.5 183 3 3.3 0.24 0.4 1.01 30 102 400 36.4
E2 810 12.5 156 1.7 2.4 0.12 0.33 0.63 14 145 100 29
SG2 840 12.5 180 1.1 1.1 0.13 0.2 0.48 28 291 55 31
R1 1364 10.3 41 2.5 10.9 0.21 0.29 0.78 9 122 2180 37.7
R2 1120 11 85 7.5 10 0.24 0.21 0.37 32 160 620 28.5
R3 1070 11.1 95 5 6.6 0.29 0.26 0.46 14 160 720 28.5
R4 906 11.5 134 10.5 8 0.33 0.13 0.32 42 228 550 22
L1 1250 10 46 12 5.1 0.43 0.16 0.28 51 474 200 56
L2 1200 10.5 50 7.4 7.4 0.24 0.13 0.31 18 860 360 83
L3 1185 10.7 55 5.3 6.7 0.28 0.25 0.35 20 700 430 75
L4 1110 11 60 0.9 9.3 0.15 0.28 0.5 6 287 380 79
L5 986 13 95 2.2 6.1 0.25 0.25 0.3 22 694 1200 42
L6 980 13 95 0.8 8.5 0.18 0.27 0.4 6 694 1200 42
L7 965 10.5 78 1.8 9.6 0.27 0.39 1.5 2 450 3600 33
L8 900 13.5 108 1.2 10.6 0.34 0.4 0.6 14 373 4400 27.9
L9 895 13.5 109 0.1 7.3 0.2 0.17 0.3 8 373 770 40.3
L10 895 13.5 109 1.1 6.7 0.21 0.21 0.4 18 373 770 40.3
L11 860 13.5 110 1.7 6.9 0.17 0.24 0.48 7 400 1170 41.6
L12 860 13.5 110 0.5 5.6 0.43 0.09 0.39 60 400 1170 41.6
L13 847 13.5 110 1.2 10.1 0.17 0.28 0.48 4 350 1290 42.3
L14 847 13.5 110 0.8 6.2 0.45 0.11 0.36 45 350 1290 42.3
L15 820 13.7 115 1.7 6.8 0.3 0.19 0.44 35 350 1450 42.8
L16 730 14 118 0.4 7.7 0.25 0.19 0.54 22 182 1700 43.1
L17 710 13.5 96 1 12.3 0.32 0.33 0.38 11 350 6100 32.7
NB1 685 14.5 128 1.2 9.8 0.32 0.37 0.47 41 509 2000 13.3
NB2 637 15.5 132 0.5 10 0.37 0.28 0.4 19 480 3400 20
NB3 630 14.5 127 0.9 19 0.33 0.33 0.77 10 299 6500 52.7
RU1 1250 10 145 3.7 2.3 0.2 0.33 0.43 19 500 250 20
Tableau 1 : Données de P. Baran & Coll. (1993). Première partie : Variables mésologiques.
Quand des variables explicatives sont destinées à modéliser plusieurs variables à
expliquer (en particulier quand celles-ci sont liées entre elles) les variables explicatives
sont appelées instrumentales. On consultera l’article cité pour la définition de ces
variables instrumentales (1-Altitude, 2-Température, 3-conductivité, 4-Pente, 5-
Largeur, 6-Profondeur, 7-Vitesse au fond, 8-Vitesse en surface, 9-Abris, 10-densit