Exploration Statistique

icon

111

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

111

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

ExplorationStatistique
ALAIN BACCINI & PHILIPPE BESSE
Version Juin 2010
Institut de Mathematiques´ de Toulouse — UMR CNRS C5219
´Equipe de Statistique et Probabilites
Institut National des Sciences Appliquees´ de Toulouse — 31077 – Toulouse cedex 4. 2 Chapitre 1
Introduction
1 Le metier´ de statisticien
Le dev´ eloppement des moyens informatiques de stockage (bases de donnees)´ et de calcul permet le
´traitement et l’analyse d’ensembles de donnees de plus en plus volumineux. Le perfectionnement des in-
terfaces graphiques offrent aux utilisateurs, statisticiens ou non, des possibilites´ de mise en œuvre tres`
simples des outils logiciels de plus en plus ”conviviaux”. Cette ev´ olution, ainsi que la popularisation de
nouvelles methodes´ algorithmiques (reseaux´ de neurones, support vector machine...) et outils graphiques,
conduisent au dev´ eloppement et a` la commercialisation de logiciels gen´ eraux,´ ou specifiques´ a` des metiers,´
qui integrent` un sous-ensemble de methodes´ statistiques et algorithmiques plus ou moins exhaustifs.
Une question emer´ ge alors de fac ¸on tres` presente´ ; elle est fondamentale pour l’emplois et les debouch´ es´
des etudiants,´ la gestion des ressources humaines et les investissements economiques´ des entreprises ou
encore les strategies´ scientifiques des laboratoires de recherche.
Quelles sont les competences´ necessair´ es a` la mise en œuvre de tels logiciels pour analyser,
modeliser´ , interpreter´ des corpus de donnees´ de plus ...
Voir icon arrow

Publié par

Langue

Français

Poids de l'ouvrage

7 Mo

ExplorationStatistique ALAIN BACCINI & PHILIPPE BESSE Version Juin 2010 Institut de Mathematiques´ de Toulouse — UMR CNRS C5219 ´Equipe de Statistique et Probabilites Institut National des Sciences Appliquees´ de Toulouse — 31077 – Toulouse cedex 4. 2 Chapitre 1 Introduction 1 Le metier´ de statisticien Le dev´ eloppement des moyens informatiques de stockage (bases de donnees)´ et de calcul permet le ´traitement et l’analyse d’ensembles de donnees de plus en plus volumineux. Le perfectionnement des in- terfaces graphiques offrent aux utilisateurs, statisticiens ou non, des possibilites´ de mise en œuvre tres` simples des outils logiciels de plus en plus ”conviviaux”. Cette ev´ olution, ainsi que la popularisation de nouvelles methodes´ algorithmiques (reseaux´ de neurones, support vector machine...) et outils graphiques, conduisent au dev´ eloppement et a` la commercialisation de logiciels gen´ eraux,´ ou specifiques´ a` des metiers,´ qui integrent` un sous-ensemble de methodes´ statistiques et algorithmiques plus ou moins exhaustifs. Une question emer´ ge alors de fac ¸on tres` presente´ ; elle est fondamentale pour l’emplois et les debouch´ es´ des etudiants,´ la gestion des ressources humaines et les investissements economiques´ des entreprises ou encore les strategies´ scientifiques des laboratoires de recherche. Quelles sont les competences´ necessair´ es a` la mise en œuvre de tels logiciels pour analyser, modeliser´ , interpreter´ des corpus de donnees´ de plus complexes et volumineux produits par une entreprise ou un laboratoire ? Les enjeux sont en effet majeurs ; les resultats´ influent directement sur les prises de decision´ du mana- ´gement ou la validation de resultats scientifiques et leur valorisation par des publications. 2 Terminologie ´Le travail du statisticien est d’abord un travail de communication avec des representants d’autres disci- plines ou d’autres metiers.´ Ceci necessite´ beaucoup de rigueur et donc de precision´ dans l’emploi des mots et concepts lorsqu’il s’agit de traduire en phrases intelligibles des resultats´ numeriques´ ou graphiques. En effet, de ces interpretations´ decouleront´ des prises de decision.´ 2.1 Statistique, statistiques, statistique Le mot statistiques avec un ”s” est apparu au XVIIIeme` siecle` pour designer´ des quantites´ numeriques´ : des tables ou etats´ , issus de techniques de denombrement´ et decri´ vant les ressources economiques´ (impots...),ˆ situations demographiques´ (conscription...), d’un pays. La Statistique est une sous-discipline des Mathematiques´ ´ ´ ` ` ` ´qui s’est developpee depuis la fin du XIXeme siecle notamment a la suite des travaux de l’ecole anglaise (K. Pearson, W. Gosset (Student), R. Fisher, J. Neyman...). Une statistique est une quantite´ definie´ par rap- port a` un modele` (i.e. une statistique de test) permettant d’inferer´ sur son comportement dans une situation experimentale´ donnee.´ ´2.2 Statistique descriptive et Statistique inferentielle De maniere` approximative, il est possible de classer les methodes´ statistiques en deux groupes : celui des methodes´ descriptives et celui des methodes´ inferentielles.´ 3 4 Chapitre 1. Introduction La Statistique descriptive n regroupe les methodes´ dont l’objectif principal est la description des ´ ´ ´ ´ ` ´donnees etudiees ; cette description des donnees se fait a travers leur presentation´ (la plus synthetique possible), leur representation graphique, et le calcul de resumes numeriques. Dans cette optique, il´ ´ ´ ´ n’est pas fait appel a` des modeles` probabilistes. On notera que les termes de statistique descriptive, statistique exploratoire et analyse des donnees´ sont quasiment synonymes. C’est essentiellement a` ces methodes´ qu’est consacre´ ce cours. La statistique infer´ entielle. Ce terme regroupe les methodes´ dont l’objectif principal est de preciser´ un phenom´ ene` sur une population globale, a` partir de son observation sur une partie restreinte de cette population ; d’une certaine maniere,` il s’agit donc d’induire (ou encore d’inferer)´ du particulier au gen´ eral.´ Le plus souvent, ce passage ne pourra se faire que moyennant des hypotheses` de type probabiliste. Les termes de statistique inferentielle,´ statistique mathematique´ , et statistique inductive sont eux aussi quasiment synonymes. D’un point de vue methodologique,´ on notera que la statistique descriptive prec´ ede` en gen´ eral´ la sta- tistique inferentielle´ dans une demarche´ de traitement de donnees´ : les deux aspects de la statistique se `completent bien plus qu’ils ne s’opposent. Population (ou population statistique) : ensemble (au sens mathematique´ du terme) concerne´ par une etude´ statistique. On parle parfois de champ de l’etude´ . Individu !2 (ou unite´ statistique) : tout el´ ement´ de la population. ´Echantillon : sous–ensemble de la population sur lequel sont effectivement realis´ ees´ les observations. Taille de l’echantillon´ n : cardinal du sous-ensemble correspondant. ˆ ´ `Enquete (statistique) : operation consistant a observer (ou mesurer, ou questionner. . . ) l’ensemble des individus d’un echantillon.´ Recensement : enqueteˆ dans laquelle l’echantillon´ observe´ est la population tout entiere` (enqueteˆ exhaus- tive). Sondage : enqueteˆ dans laquelle l’echantillon´ observe´ est un sous–ensemble strict de la population (enqueteˆ non exhaustive). E si qualitativeX Variable (statistique) : 7 ! IR si quantitative caracteristique´ (age,ˆ salaire, sexe. . . ), definie´ sur la population et observee´ sur l’echantillon´ ; mathematiquement,´ il s’agit d’une application definie´ sur l’echantillon.´ Si la variable est a` valeurs dans IR (ou une partie de IR, ou un ensemble de parties de IR), elle est dite quantitative (age,ˆ salaire, taille. . . ) ; sinon elle est dite qualitative (sexe, categorie´ socioprofessionnelle. . . ). Donnees´ (statistiques) : ensemble des individus observes´ (echantillon),´ des variables consider´ ees,´ et des observations de ces variables sur ces individus. Elles sont en gen´ eral´ present´ ees´ sous forme de ta- bleaux (individus en lignes et variables en colonnes) et stockees´ dans un fichier informatique. Lors- qu’un tableau ne comporte que des nombres (valeurs des variables quantitatives ou codes associes´ aux variables qualitatives), il correspond a` la notion mathematique´ de matrice. 3 Contenu Un premier chapitre (statistique descriptive uni et bidimensionnelle) introduit briev` ement les techniques permettant de resumer´ les caracteristiques´ (tendance centrale, dispersion, boˆıte a` moustaches, histogramme, estimation non parametrique)´ d’une variable statistique ou les relations entre variables de memeˆ type quanti- 2tatif (coefficient de correlation,´ nuage de points, ou qualitatif ( , Cramer, Tchuprow) ou de types differents´ (rapport de correlation,´ diagrammes en boˆıtes paralleles).` Les chapˆıtres suivants sont consacres´ aux principales methodes´ de statistique descriptive multidimen- sionnelle. 3.1 Chronologie Les bases theoriques´ de ces methodes´ sont anciennes et sont principalement issues de psychometres` americains´ : Spearman (1904) et Thurstone (1931, 1947) pour l’Analyse en Facteurs, Hotteling (1935) 4. Objectifs 5 pour l’Analyse en Composantes Principales et l’Analyse Canonique, Hirschfeld (1935) et Guttman (1941, ´ ´ ´1959) pour l’Analyse des Correspondances. Pratiquement, leur emploi ne s’est generalise qu’avec la diffu- sion des moyens de calcul dans le courant des annees´ 60. Sous l’appellation “Multivariate Analysis” elles poursuivent des objectifs sensiblement differents´ a` ceux qui apparaˆıtront en France. Un individu ou unite´ statistique n’y est souvent consider´ e´ que pour l’information qu’il apporte sur la connaissance des liaisons entre variables au sein d’un echantillon´ statistique dont la distribution est le plus souvent soumise a` des hypotheses` de normalite.´ En France, l’expression “Analyse des Donnees”´ recouvre les techniques ayant pour objectif la des- cription statistique des grands tableaux (n lignes, ou` n varie de quelques dizaines a` quelques milliers,p colonnes, ou` p varie de quelques unites´ a` quelques dizaines). Ces methodes´ se caracterisent´ par une utilisa- tion intensive de l’ordinateur, leur objectif exploratoire et une absence quasi systematique´ d’hypotheses` de nature probabiliste au profit de la geom´ etrie´ euclidienne. Elles insistent sur les representations´ graphiques en particulier de celles des individus qui sont consider´ es´ au memeˆ titre que les variables. Depuis la fin des annees´ 1970, de nombreux travaux ont permis de rapprocher ou concilier les deux points de vue en introduisant, dans des espaces multidimensionnels appropries,´ les outils probabilistes et la notion de modele` , usuelle en statistique infer´ entielle. Les techniques se sont ainsi enrichies de notions telles que l’estimation, la convergence, la stabilite´ des resultats,´ le choix de criteres.` . . 3.2 Methodes´ Les m´ de Statistique Multidimensionnelle concernees´ sont gen´ eralement´ les suivantes : Description et reduction´ de dimension (methodes´ factorielles) : i. Analyse en Composantes Principales (p variables quantitatives), ii. Factorielle Discriminante (p variables quantitatives, 1 variable qualitative), iii. Analyse F des Correspondances Binaire (2 variables qualitatives) et Multiple (p va- riables qualitatives), iv. Analyse Canonique (p etq variables quantitatives), v. “Multidimensional Scaling” (M.D.S.) ou positionnement multidimensionnel ou analyse facto- rielle d’un tableau de distances. vi. Analyse en Facteurs (“Factor Analysis”), ou analyse en facteurs communs et specifiques.´ Methodes´ de classification : i. Classification ascendante hierarchique,´ ii. Algorithmes de reallocation´ dynamique, iii. Cartes de Kohonen (reseaus´ de neurones). Les ref´ erences´ introductives les plus utiles pour ce cours sont : Bouroche & Saporta (1980), Jobson (1991), Droesbeke, Fichet & Tassi (1992), Everitt & Dunn (1991), Mardia,
Voir icon more
Alternate Text