Cours 2010-2011

icon

72

pages

icon

Français

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

72

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

MTSO11F, Statistiques bivariées, D. Breton 2010/2011 Statistiques bivariées SO10FM11/SO30FM22 Université de Strasbourg Licence Sciences Sociales Cours Didier Breton dbreton@unistra.fr Travaux dirigés Mohamed Ouardani ouardani@unistra.fr Nicolas CauchiDuval cauchiduval@unistra.fr Emmanuel Perinel – emmanuel.perinel@neuf.fr Année Universitaire 2010/2011 1 MTSO11F, Statistiques bivariées, D. Breton 2010/2011 Préalable Ce cours se base totalement sur le cours construit et dispensé durant des années par Jacqueline Igersheim en formation initiale et actuellement repris par M. Ouardani en enseignement à distance. Qu’ils soient tous les 2 très sincèrement remerciés de m’avoir autorisé à reprendre presque intégralement leur cours que je prendrai grands soins de compléter dès l’an prochain. 3 SO10FM11/SO30FM22, Statistiques bivariées, D. Breton 2010/2011 Présentation Le cours Le mercredi matin de 8h30 à 10h00 – Amphi 2 Les 8 premières semaines ainsi que la dernière semaine (12) Les travaux dirigés Toutes les semaines paires (à partir de la semaine prochaine) M. OUARDANI : le jeudi de 10h00 à 12h00 – Salle 3213 – parcours « Sociologie » et « Sociologie du développement » N. CAUCHI DUVAL : le mercredi de 16h00 – 18h00 – Amphi 4 – Parcours démographie obligatoire et parcours « Sociologie » et « Sociologie du développement » E. PERINEL : le jeudi 9h00 – 11h00 – Salle 3202 – Parcours « Socio Eco » ...
Voir icon arrow

Publié par

Langue

Français

MTSO11F, Statistiques bivariées, D. Breton 2010/2011 
 
             Didier Breton dbreton@unistra.fr      Mohamed Ouardani ouardani@unistra.fr  Nicolas CauchiDuvalcauchiduval@unistra.fr Emmanuel Perinel –emmanuel.perinel@neuf.fr        Année Universitaire 2010/2011
 1
MTSO11F, Statistiques bivariées, D. Breton 2010/2011 
Préalable
Ce cours se base totalement sur le cours construit et dispensé durant des années par Jacqueline Igersheim en formation initiale et actuellement repris par M. Ouardani en enseignement à distance. Qu’ils soient tous les 2 très sincèrement remerciés de m’avoir autorisé à reprendre presque intégralement leur cours que je prendrai grands soins de compléter dès l’an prochain.
 
3
4
 Inscription en travaux dirigés est obligatoire  + ,  - .écrit lors de la semaine d’examen – 2 heures – commun à tous.  "   $ ,  #/ 01 , DEORESBEKJ. J.,Éléments de statistique, Bruxelles, éditions Ellipses, 1997, 550 pages. PYB.,Statistiques descriptives, éditions Economica, 1992, 353 pages WTTOCONNA T. H. & WCONATTNO J., RStatistique, éditions Economica, 1995, 922 pages GRAISB.,Méthodes statistiques23e édition, éditions Dunod, 1998,401 pages.   "& "& ) # (      0.3  3. 
 
iques bi Statist3OF02M,201MF11S/SOde 8tin i macred mA0h 0 à013h 0empr8 s Le2 i pha seniames serèi D. Bretvariées,2/10 1no  0201ioat n réPntseeLrem meiases aprien sà paes ( de rtiriames alhcorp en!) neai"%#$"niisq eul  aednrière semaine (12  )utTo lesppolevéd ud eigoolciSo« t  e »iem re :el"(&$"'%!t » emen0h21  00h01 à 0dieue  d: &  jleoSiclogoocru s «13  parSalle 32olciSo«  e »ieogp te eri sruocravelou déent ppemoSic t «eid logo8h 1 00mp A 4hiderced ih61  00graphie obligato P raocru sédomo » Socio Ec32e llSa 0 h011 « sruocraP  20 : l&%)*)#» )! 0 9 0hdu i eej
02/0 11 not102 cou s urPl dan S/11MF01O22MF03OSatis, Stes btiquéiseviraB er ,.D
5
 
 &%#$&% 4 Dans la continuité des enseignements des semestres 1 à 4 6 Deux questions centrales 7 *"#&)  ,  "&&5) $)#&*&() ) )'"%&%%"6) 7 I. POPULATION ETECHANTILLON 10 La population 10 L’échantillon 10 II. LA PRESENTATION DUNE SERIE UNIVARIEE 15 Quelques concepts de base 15 La présentation d’une série sous forme d’un tableau 16 Paramètres de tendance centrale et de dispersion 19 Estimation de paramètres 25 III. REPRESENTATIVITE DUN ECHANTILLON 29 Représentativité selon un paramètre 30 Test multinomial : représentativité suivant plusieurs modalités/classes d’une variable qualitative/quantitative discrétisée 32 Test du Khi-2 : représentativité suivant le croisement une variable qualitative et/ou quantitative discrétisée 34 *"#&)  , "%"8) &("#&)) 9 IDOCUNRTITNO 39 I. MESURER LA RELATION ENTRE DEUX VARIABLES QUALITATIVES 40 Le tableau de contingence 40 Test d’indépendance 42 II. MESURER LA RELATION ENTRE DEUX VARIABLES QUANTITATIVES 45 Les données 45 Calculs de corrélation 47 Droites de régression 52  
Introduction
 
DANS LA CONTINUITE DES ENSEIGNEMENTS DES SEMESTRES1A4 Ce cours est le dernier cours de statistiques descriptives du cursus Licence en Sciences sociales. Rappelons rapidement le contenu des enseignements des 4 premiers semestres, le 5ème semestre n’offrant un enseignement en statistiques uniquement pour les démographes. .  ,  0 · sensibilisation à l’enquête quantitative et au questionnaire · calculs et utilité des indicateurs de : moyenne, mode, médiane et des  0: écarttype, coefficient de variation o Savoir calculer et interpréter ces différents indicateurs calculés au sein de l’ensemble de la population ou au sein d’un échantillon. .  , * · continues – distributions théoriques, notion deProbabilité : lois discrètes et variable aléatoire statistique .  , 1  +. · Statistique inférentielle : Estimation: utilisation du théorème centrallimite / Loi des grands nombres qui permettent de juger de la convergence de la loi suivie par un estimateur d’un paramètre (moyenne ou proportion) vers une loi continue. ·  après (oufaisant l’hypothèse que l’échantillon est représentatifEnsuite, en avoir vérifié sa représentativité) il est possible d’inférer ou d’obtenir une estimation qui prend la forme d’un intervalle (intervalle de confiance), de la valeur du paramètre dans la population mère ou population totale. . : , 1   ;< · Tests de cohérence de la valeur obtenue d’un paramètre (moyenne, proportion) par rapport à une valeur donnée (réelle ou théorique). · Les tests de comparaison de deux moyennes ou de deux proportions mesurées au sein d’échantillons. · du Khi2 pour comparer deux distributions : une distributionLe test théorique avec une distribution observée. La distribution théorique en deuxième année correspondait à la situation d’indépendance entre les deux variables. En parallèle des enseignements statistiques des semestres 3 et 4, le TD d’enquête quantitative MODALISA se veut être une application des enseignements de statistique et une confrontation à la réalité d’une enquête quantitative. 6
titaiqsts uevabi11MF3OS/2MF0S ,2SO10onetBr.  Ds,éeri 1102/0102  
DEUX QUESTIONS CENTRALES Le cours de statistique de ce semestre prolonge et complète ces différents enseignements. La question centrale de ce cours est relative aux statistiques bivariées (deux variables) :  .. =   /    1   /   0     > ;<  Répondre statistiquement à cette question dépend de la nature des deux variables étudiées. Trois combinaisons sont possibles : Cas A : Deux variables qualitatives révision et prolongement des tests de comparaison de deux proportions et du test du Khi2 Cas B : Une variable qualitative et une variable quantitative et prolongement révision des tests de comparaisons de deux moyennes Cas C : Deux variables quantitativesCorrélation et régression L’analyse dans ces cas n’est plus univariée mais bien bivariée. On analyse de manière simultanée les caractéristiques des individus suivant deux variables. Dans le cas de données collectées par questionnaire il s’agit d’analyser la relation entre deux séries de réponses d’individus. Estce que les réponses à une question A sont dépendantes/liées/corrélées aux réponses à une question B.  Mais avant d’aborderla question de la dépendance vous devez avoir les moyens de juger de la représentativité d’un échantillon. Et donc de savoir répondre à la question suivante :  +1 2   0 ;0  < 2 ? 0/   00 .3 > ;<  Pour répondre à cette question, nous utiliserons plusieurs « techniques », plusieurs « outils » :  confiance d’une proportion ou d’une moyenneIntervalle de  Test multinomial  Test du Khi2 La notion de représentativité est toujours une notion relative. On peut vérifier la représentativité d’un échantillon suivant la distribution : · d’une variables qualitative dichotomique ou quantitative : construction d’intervalle de confiance · de la distribution des effectifs suivant une variable à k modalités (k>2) : test multinomial · de la distribution suivant deux variables qualitatives ou quantitatives discrétisées : le test du Khi 2
7
 
 
11MF3OS/01OS 110/21020  onetBr. ,sD ireéibaveu sstiqtati2, S0FM2
. Breton  2010/210 1M20F S2,titaiqst seuavibeéirD ,sOS01S/3OMF11
 
8
Dans les deux cas (dépendance ou représentativité de l’échantillon), le schéma général est le même : 1 On part de la situation de référence (intervalle ou répartition des effectifs) , c'estàdire celle que l’on devrait obtenir si l’échantillon était représentatif de la population mère. 2 On compare avec la situation observée dans l’échantillon tiré. 3 situation théorique et la situation observée onDe la différence entre la parvient à une conclusion avec un certain niveau de confiance ou de certitude. Dans le cas de la vérification de la dépendance entre les deux variables (1), la situation théorique est celle de l’indépendance entre les deux variables et si l’on cherche à vérifier la représentativité d’un échantillon, la situation théorique est celle de la représentativité de l’échantillon.
Mais avant de répondreces deux questions, une partie introductive servira de rappel sur laà notion d’échantillon, sur quelques notions de vocabulaire en statistique univariée et bivariée et sur les modalités de calcul des indicateurs statistiques de tendance centrale et de dispersion d’une série univariée.  En conclusion se cours se décompose en trois parties : * statistiques descriptives et théorie de l’échantillonnage: Rappels de * : Juger de la représentativité d’un échantillon * : Juger de la dépendance entre deux variables.  
SO10FM11/SO30FM22, Statistiques bivariées, D. Breton 2010/2011 
 
Partie 1 : Statistiques descriptives et échantillonnage
 
9
2011010/ SO10FM1/1OS03MF22 ,tStatiisesquiv biéar ,seB .Doter2  n
LA POPULATION La*0 toutes les personnes susceptibles d’être enquêtées. Une regroupe population est localisée, datée et caractérisée. Elle a une taille « N » c'estàdire qu’elle regroupe « N » individus appelésunités statistiques.. · Par exemple la population française au 24 janvier 2008 est constituée de l’ensemble des individus qui vivent sur le territoire national le 24 janvier 2008. On ne peut pas connaître la taille exacte de cette population. De plus la question est de savoir à quel moment la dénombrer dans la journée du 24 janvier 2008 ? ·  l’année universitaire étudiants de l’Université Marc BlochLa population des « 20072008 » est constituée de l’ensemble des étudiants inscrits dans les fichiers de  la scolarité au jour de la clôture des inscriptions. On peut facilement connaître cette population. Dans le cas d’enquête on emploie facilement l’expression de »« population mère ou « population totale ». L’idéal pour une enquête statistique serait d’interroger l’ensemble de la population. Une telle démarche, qualifiée d’exhaustive est0/ .0compte tenu de la taille trop importante de la population, compte tenu des moyens financiers ou du temps disponibles pour collecter l’information ou tout simplement parce que c’est techniquement impossible. Mais l’exhaustivité peut aussi être . tenu des niveaux de compte précisions obtenus à partir d’un échantillon, sous réserve de la représentativité de ce dernier. Toutefois l’exhaustivité reste la démarche idéale pour plusieurs raisons :  Elle élimine toutes les questions de l’aléa et de la représentativité statistiques. Les indicateurs obtenus sont les indicateurs réels.  L’exhaustivité autorise plus de traitements et notamment des traitements croisés et multivariés compte tenu des effectifs plus importants de la population. C’est par exemple le cas pour les études locales fines ou l’étude des sous populations marginales.  @ 0 @ .     00   .!   . @   0 @  A  +1 B
I. Population et Echantillon
L’ECHANTILLON L’échantillon représente une fraction de la population totale. Il a une taille « n ». Il a une vocation : être représentatif de la population totale. On suppose donc que l’échantillon qui sera ensuite enquêté soit représentatif de la population totale, tout du moins du point de vue des variables clés et centrales dans la problématique de l’étude. En effet, sans représentativité, les conclusions obtenues à partir de l’échantillon ne peuvent pas être extrapolées à la population totale. L’échantillon est obtenu par tirage qui obéit à un protocole particulier :c’est le plan de sondage. Une des conditions pour une bonne représentativité d’un échantillon est que le plan de sondage accorde suffisamment de place à l’aléatoire.Cela consiste à mettre un maximum de hasard dans la phase de tirage des individus. L’aléa limite les risques de sélection d’individus 10  
ièreiculpartues tsqiétirracaxuc , néon dxesen ud elpmexe raP .sre dune ou encofoseisnodnu erpesClet èrli  e.rap ucitiro enigd uaptrpoluenp  lor cas la sque snad ertnahcélpan ioatièulicrteffceit)fe tss illon (en % de le
Échantillon avec ou sans remise Un tirage d’échantillon est ditexhaustifsi le tirage se fait sans remise. Une personne ne peut être interrogée qu’une et une seule fois. Un tirage est ditindépendantsi le tirage se fait avec remise. Une personne peut être tirée et interrogée à plusieurs reprises. Quand la taille de la population est très importante et que la taille de l’échantillon est en comparaison suffisamment petite, alors même si le tirage se fait sans remise on peut supposer que les tirages sont indépendants. La limite avait été fixée à 1/10 en deuxième année (soit un taux de sondage inférieur à 1/10). Base de sondage Pour tirer aléatoirement un échantillon, il faut disposer d’une base de sondage. C’est ce qui se fait dans toutes les enquêtes quantitatives «ambitieuses». Une base de sondage est une liste papier ou informatique de personnes ou plus généralement d’adresses ou de coordonnées (téléphone, emails, …). Tirage systématique dans une base de sondage Procédé : · Numéroter tous les individus de1jusqu’àN. · Choisir un nombrebcompris entre1etr=N. n
iré e
 
r
 11
uas àrap érupurieoue nf i0FM2/SO3FM11SO10qits seuS ,2itat Ds,Br. vabiéeri012/10 1teno  02omportemau c pout enpal firoeilucitr nU   .rntiléchanon lon séneerrp fseatitunt ch étianonllrus per esér étnou sous représenétd idnvidisua au sort.re tiré   1de3010 t esos 32 ti  = 72,0 étuaque· Ch).  rpbonu e t àidnaorhé tené itilabtêd 011/1 ed ei3  0epsrnoen sua hasard dans unelas d el11 eté 0iauds nt =(N10 1dnga eos ted ese Exe Nn. 1 :mplexuev eJ u rerit nthaécn den loilà riél appanetritildé prn abob eatxud  e :1NL on connuchantillqahc is etsilibaobpru  oreoiatléa u itnoupal aopde lidu ndivue iplomuéiqpoe  lurllemnemelp tc suondage est dit aseq ouat.s  nUs écn u dloilnthaeunetbo nies ua encenfér for estaéot nlaL iri.en ioatulop plaà erusem al elatote les qu telnnuser rniéf ,dT LCs leislot anr suemèroc s te oéhtlus simp l est psua ppyuele  nond elabolpop al en.ioatulusple  Dnu ega e eerobnnentaprésté gtiviimer.sreslI rag tianenssdat ntvan uo send vélepoperons que les pI icel.)expmrae as pquotdes ode htém( sénnosiar ixho c ànsloilntel scéaher)se  t(aléatoiilistes rp sbaboitnanolles lch éloil :nsles amilhantdécxug  ,edsef ardnr ieemprrestmeseerèimerp ,eénna us lavez vu en e ixts eocmm eovontiot te.alIl  ad tl snop aalup  ds 4)1/uep ulp %3,7nu( 
Voir icon more
Alternate Text