Quelques définitions pour commencer :
- Mode : Le mode est la valeur la plus fréquente dans un échantillon.
- Médiane : la médiane est un nombre qui divise en 2 parties la population telle que chaque partie contient le même nombre de valeurs. Dans la même logique, il y a les quartiles, déciles et centiles, qui divisent respectivement en 4, 10 et 100 la population.
- Moyenne : La moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre d’individus.
- La variance : La variance est la moyenne des carrés des écarts à la moyenne.
- L’écart-type : c’est la racine carrée de la variance.
C’est bien beau, mais à quoi tout cela sert ? Le but de ces notions est de décrire les résultats observés pour une population donnée. Le plus simple est une petite illustration.
Sur un groupe de 10 personnes vous demandez à chacun combien ils ont d’argent sur eux, cela donne le résultat suivant : 5, 5, 10, 10, 10, 10, 15, 15, 20 et 500 €
Donc le mode est égale à 10 €. L’intérêt est connaître la valeur la plus fréquente n’est pas toujours flagrant. Ça peut être pertinent pour savoir par exemple quel âge est le plus présent dans votre échantillon.
La médiane est égale à 10 €. Donc la moitié de l’échantillon a 10 € ou plus et l’autre moitié a 10 € ou moins. Donc si le prix de votre produit est supérieur à 10 €, la moitié de l’échantillon ne pourra pas l’acheter.
La moyenne est égale à 60 €. C’est intéressant de comparer la moyenne à la médiane. Cela aurait été une grossière erreur de dire que la somme moyenne étant de 60 €, on pouvait fixer le prix du produit à 60 €. Il n’y aurait eu alors qu’un seul acheteur potentiel. Cette différence est due à la distribution de la population observée avec un individu pesant très lourd.
La variance est égale à 23 922,22 €², ce qui en soit ne veut rien dire ! Il faut donc regarder l’écart-type qui est de 154,66 €. Avec l’écart-type généralement on peut dire que « la moyenne est de 60 € avec un écart moyen en plus ou en moins de 154 € ». Mais 60 € – 154 € = – 94 €, ce qui n’est pas possible, vu que l’on parle de l’argent que les personnes avaient sur eux. Encore une fois la présence d’un sujet qui pèse lourd donne des résultats exotiques. C’est que probablement la population n’est pas homogène.
Si on supprime le sujet avec 500 €, on obtient les résultats suivants :
- Mode = 10 €
- Médiane = 10 €
- Moyenne = 11,1 €
- Ecart-type = 4,8 €
Donc « la moyenne est de 11,1 € avec un écart moyen en plus ou en moins de 4,8 € ». Le résultat est donc plus cohérent. On remarque aussi que la médiane et le mode n’ont pas changé. Ces deux valeurs sont souvent négligées dans les statistiques alors qu’elles ont toutes leurs importances.
Source : http://www.usablestats.com/
Marrant j’avais apprécié l’article de Tateru Nino qui évoquait aussi le fait qu’une moyenne ne veut rien dire sans plus d’analyse :
http://dwellonit.taterunino.net/2010/09/14/more-than-just-average/
Effectivement, l’analyse statistique ne dois pas se limiter à une application systématique de formules.
Vive notre meilleur outil: le cerveau ^_^
Oui, un prof de statistiques donnait cet exemple : « Si tu as la tête dans un four et les pieds dans l’azote liquide, en moyenne, tu es à la bonne température ! «
L’écart type n’est pas de 154€!
154 au carré n’est pas égal à 21530€.
Si j’ai bien compris .
L’écartype est bien de 154,66 € et des poussières. Je m’étais trompé sur la variance qui est de 23 922,22 €². Heureusement qu’il y en a qui suive !
Je crois qu’il intéressant de préciser que l’intervalle [Moyenne-ecart type;Moyenne+ecart type] contient 68% des valeurs de l’échantillon et que [Moyenne-2*ecart type;Moyenne+2*ecart type] contient 95% des valeurs de l’échantillon
Non, pas exactement, cela dépend de la répartition de la population. De toutes manières, ça ne marche pas si vous avez une population qui n’est pas répartie de manière homogène notamment une moyenne différente de la médiane.
Il faut aussi étudier la dispersion!