Statistiques
La statistique est la science et la pratique de la production d'informations à partir de données empiriques quantitatives. Elle est basée sur la théorie statistique qui est une branche des mathématiques appliquées. On peut la lier à la théorie de la décision.
| Sommaire |
La démarche statistique
Toute étude statistique se fonde sur une population formée de nombreux individus sur lequels on peut observer des caractères (en:characters).
Le terme statistique recouvre deux techniques qu'il est essentiel de distinguer, même s'il n'est pas interdit de les utiliser conjointement.
La statistique descriptive pallie simplement une faiblesse de l'esprit humain : l'impossibilité d'apprécier de manière synthétique le contenu d'une population nombreuse. Elle permet de procéder à des réductions statistiques faciles à interpréter : valeurs centrales, valeurs de dispersion, histogrammes, etc.
La statistique mathématique a un objectif plus ambitieux : interpréter une population en utilisant une loi de probabilité. Dans cette démarche, le statisticien se fixe une hypothèse et détermine ensuite si celle-ci s'accorde avec les faits (matérialisés par des chiffres).
En revanche, la fouille de données (en:data mining), a une approche différente des méthodes statistiques classiques, basées sur le test d'une hypothèse fixée a priori. Au contraire, le data mining va tenter de faire émerger des hypothèses à partir des données brutes, hypothèses parfois surprenantes pour l'expérimentateur.
L'acquisition de données
Plannification (cf. la planification d'expériences)
Collecte des données
La première étape est de réaliser des mesures. Il se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens large : cela peut être un sondage d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.
Dans le cas le plus simple, on fait n mesures, et on obtient n valeurs (xi).
Incertitude de mesure
En physique et en chimie, on utilise souvent la loi de Student pour déterminer les incertitudes (intervalle de confiance) ; dans ces domaines, son utilisation se réduit souvent à multiplier l'estimateur de l'écart type par deux ou par trois pour avoir l'erreur acceptable. Le calcul d'erreur constitue un ensemble de méthodes de calcul permettant d'estimer les erreurs sur des résultats au départ de incertitudes ou erreur sur les mesures.
Traitement des données
Statistique descriptive
Le résumé (cf. le résumé statistique de données).
Les valeurs numériques d'un caractère statistique se répartissent dans
, il est nécessaire de définir leurs positions. En statistiques, on est en général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voir milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques (voir aussi critères de position).
Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion. Elles peuvent aussi fournir une présentation plus élaborée : c'est le cas des quantiles et de l'histogramme.
Critères de position
La moyenne
- La moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre d'individus :
- La moyenne géométrique est utilisée dans l'étude des rapports, par exemple en matière économique dans la définition de certains nombres-indices. Il s'agit en effet de paramètres de position destinés à mesurer les variations relatives d'un ensemble de variables de même nature ou soumises à des influences communes (indice de prix ou de production).
- La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés.
- La moyenne harmonique est l'inverse de la moyenne arithmétique des inverses.
La médiane
La médiane est la valeur centrale qui partage l'échantillon en 2 groupes de même effectif : 50% au dessus et 50% en dessous. La médiane peut avoir une valeur différente de la moyenne. En France, le salaire médian est inférieur au salaire moyen : il y a beaucoup de smicards et peu de très gros salaires. Cependant, les gros salaires tirent la moyenne vers le haut.
Le mode
Le mode est la donnée ou groupe de données qui revient le plus souvent.
Mesures de dispersion
- Étendue : c'est l'intervalle entre la plus petite et la plus grande valeur. On dit d'un phénomène qu'il présente une « forte dynamique » lorsque l'étendue (ou la dispersion) est grande.
- Variance : la variance empirique corrigée
pour le carré de l'écart type (ou variance) :
- Écart-type : c'est la racine carrée de la variance
- Coefficient de variation :
- Cote Z :
Attention! : variance = 1/n (somme de (X-moyenne)au carre) et variance corrigée= n/(n-1)fois variance
Quantiles
Ceux-ci généralisent la notion de médiane qui coupe la distribution en deux parties égales. On définit notamment les quartiles, déciles et centiles (ou percentiles) sur la population, ordonnée dans l'ordre croissant, que l'on divise en 4, 10 ou 100 parties de même effectif.
On parlera ainsi du « centile 90 » pour indiquer la valeur séparant les premiers 90% de la population des 10% restant. Ainsi, dans une population de jeunes enfants, un enfant dont la taille ou le poids est au-delà du centile 90, ou en deçà du centile 10, doit être l'objet d'un suivi particulier.
Histogramme
Exemple_d_histogramme.png
L'histogramme est une des nombreuses représentations graphiques de données statistiques possibles. Comme les quantiles, l'histogramme découpe la population en classes mais le point de vue est radicalement différent.
Avec les quantiles, le but est de localiser les frontières entre classes de même effectif. Ils sont souvent utilisés, par exemple en matière de revenus, pour comparer les deux classes extrêmes.
L'histogramme implique des classes souvent de même largeur et de hauteur variable pour donner une allure de la distribution qui peut fournir une compréhension intuitive du phénomène. En se dirigeant vers la statistique mathématique il peut aussi être comparé à une loi de probabilité. Une comparaison qualitative sur un graphique peut ensuite être précisée par l'utilisation Test du χ².
Classification des données
[en:data] [variables]:types - quantitative : expressed by means of a natural language description (eg. colour) - qualitative : expressed in terms of numbers (eg. size)
Distributions de fréquences
Représentations graphiques
Corrélation et régression
- corrélation :
tests pour vérifier que la loi choisie est judicieuse :
- Test du χ² ou Khi-deux ou chi-carré (prononcer « ki-deux » ou « ki-carré ») : permet de mesurer l'indépendance des variables
Interprétation
cf. l'interprétation de données statistiques.
Statistiques sur deux variables
Lorsque l'on collecte des mesures de deux grandeurs X et Y, on obtient une série de couples de valeurs (xi,yi). Le modèle mathématique correspondant est celui de deux variables aléatoires X et Y. On dit alors que X et Y sont corrélées s'il existe un lien entre les valeurs prises par X et par Y (et on peut alors espérer, connaissant la valeur de X, prédire la valeur de Y). Concrètement, cela peut vouloir dire que l'une des deux grandeurs X ou Y influence l'autre, ou encore que X et Y sont influencées simultanément par un autre phénomène.
Une mesure de la corrélation des grandeurs X et Y est obtenue par le calcul du coefficient de corrélation linéaire (voir régression linéaire). Ce coefficient, qui est un nombre compris entre -1 et 1, mesure l'existence ou non d'un lien linéaire entre X et Y : plus ce coefficient est proche de 1 ou -1, plus forte est la corrélation linéaire entre les grandeurs. Dans le cas où ce coefficient vaut 0, on parle de variables aléatoires non corrélées (notons que des variables indépendantes sont toujours non corrélées, la réciproque étant fausse).
Souvent, un phénomène physique est régi par une loi simple, qui se traduit par une relation affine entre deux grandeurs (c'est le cas le plus simple de variables corrélées) : Y = a X + b. À partir de mesures de couples de valeurs (xi,yi), on peut obtenir une estimation de a et b dès que X et Y sont corrélées. Cette estimation est d'autant meilleure que le coefficient de corrélation est proche de 1 ou -1. On réalise alors une régression linéaire.
D'autres phénomènes sont corrélés de manière exponentielle, ou sous forme de puissance (voir série statistique à deux variables en mathématiques élémentaires).
L'utilisation de cette notion est souvent abusive, car le fait que deux variables aléatoires soient corrélées entraîne leur non-indépendance - au sens mathématique du terme. Ceci ne signifie généralement pas qu'elles soient dépendantes l'une de l'autre au sens courant (c'est-à-dire que la connaissance de la valeur de l'une permette de connaître exactement la valeur de l'autre).
D'autre part, une corrélation non nulle n'induit pas une relation de cause à effet entre les deux phénomènes mesurés, puisqu'ils peuvent être corrélés à un même phénomène-source : le nombre de coups de soleil observés dans une station balnéaire est ainsi fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n'est bien sûr la cause de l'autre ... Les médias laissent souvent à penser que des phénomènes corrélés (on ne sait d'ailleurs jamais s'il s'agit d'une corrélation forte ou pas) sont liés par une relation de cause à effet ; il s'agit là d'un détournement dangereux du concept mathématique.
Statistiques et probabilités
Généralités
La statistique constitue une méthode d'analyse d'événements réels (donc passés). Au contraire, les probabilités ont pour objet d'anticiper le futur. Exemple : pendant une campagne électorale, un sondage est une statistique, qui permet d'établir une probabilité sur le résultat des prochaines élections.
Les deux notions sont liées :
- sur le plan sémantique : les termes de moyenne ou d'écart-type sont utilisés dans les deux domaines, pour désigner des notions similaires.
- sur le plan logique : la loi des grands nombres indique que la moyenne mesurée par l'expérience est d'autant plus proche de l'espérance mathématique que le nombre d'expériences est grand.
Statistique mathématique
L'idée de base de la statistique mathématique consiste à associer une loi de probabilité à une population. Ainsi, avant d'être connu, un élément de la population est considéré comme une variable aléatoire. Un échantillon est constitué par plusieurs éléments de ce type.
L'un des problèmes consiste à déduire les propriétés statistiques de l'échantillon de celles qui sont prêtées à la variable aléatoire : c'est la théorie de l'échantillonnage.
Le problème concret est le problème inverse qui consiste à se demander quelles informations l'échantillon apporte sur les paramètres de la loi de probabilité : c'est la théorie de l'estimation.
L'estimation d'un paramètre fournit un nombre qui n'a aucune raison d'être sa valeur exacte. Il y a une certaine probabilité pour que cette valeur se trouve à l'intérieur d'un intervalle autour de la valeur estimée : en se donnant la probabilité sous la forme 1-ε (ε : risque de se tromper) on définit un intervalle de confiance pour l'estimation.
On peut enfin construire un test d'hypothèse : une hypothèse H est rejetée au niveau 1-ε si les conséquences de l'hypothèse s'expriment par un nombre qui a une probabilité inférieure à ε d'être dépassé.
Dans un test paramétrique l'hypothèse est l'égalité d'un paramètre à une valeur donnée (le standard). Elle est rejetée si le standard est dans la région critique, hors de l'intervalle de confiance au niveau 1-ε .
Dans le test du χ2 l'hypothèse est l'adéquation d'une loi de probabilité à un échantillon.
Dans un test de comparaison l'hypothèse est l'égalité du paramètre pour deux populations auxquelles on prête une loi de probabilité de même forme.
La plupart de ces problèmes se simplifient considérablement si on suppose que la loi – en toute rigueur inconnue – est une loi normale.
Liens dans Wikipedia
- Analyse de la variance
- Théorie des valeurs extrêmes
- Régression linéaire
- Liste d'associations statistiques académiques
- Liste des services nationaux et internationaux de statistiques
- Liste de sujets en statistiques
- Liste de statisticiens
- Loi de Gauss ou loi de Laplace-Gauss appelée aussi loi normale
- L'apprentissage des machines
- L'analyse des données ou statistique multidimensionnelle
- Les phénomèmes statistiques
- Georges Hostelet, Le concours de l’analyse mathématique à l’analyse expérimentale des faits statistiques, 1938
- Métrologie
- Processus stochastiques
- Statistique (mathématiques élémentaires)
- Les sources d'erreurs
- Probabilité
- Théorie des probabilités
Voir aussi
- Statistique
- Théorie des statistiques
- Statistique (mathématiques élémentaires)
- Statistique descriptive
Liens externes
- (en) Statistiques de textes
- (en) R, logiciel de statistiques
- (en) Scilab, possède une boîte à outils statistique
- (fr) Informations et statistiques sur les populations du monde
- (fr) Institut National de la Statistique et des Études Économiques France
- (fr) Statistique Canada
- (fr) Institut de la Statistique du Québec
- (fr) Revue Lexicometrica de lexicométrie / statistique textuelle
- (en) descr_stats: un petit outil simple et libre de statistique descriptive
