La moyenne – Épisode 1 : la notion de dispersion

La moyenne – Épisode 1 : la notion de dispersion

La “moyenne” est un terme qui revient très souvent dans le langage courant. On nous présente tous les jours des “moyennes” et autres “statistiques” mais la validité de ces chiffres laisse parfois à désirer, car un chiffre seul ne veut rien dire. Nous allons donc voir brièvement et sans jargon trop technique ce qui se cache derrière une moyenne, ce qu’est un indice de dispersion (comme l’écart type), et comment présenter vos moyennes de manière propre et complète afin de donner du poids à vos présentations et ainsi obtenir gloire, succès, argent et rapports sexuels réguliers avec de multiples partenaires….

 Fred Serval : j’ai pris la décision unilatérale de proposer sur Slow Lab une série de posts de stats pures. Pour inaugurer cette série, nous allons commencer par un article en trois parties sur la notion de moyenne. Étant une burne en statistiques (c’est d’ailleurs pour ça que je trouve cette série d’articles utile), j’ai décidé de faire appel à un invité pour la rédaction de ces précis de statistiques. Je vous présente donc Samuel Péan.

Sam est un docteur en sciences comportementales, assez loin du web analytics donc. Mais Sam a une formation de scientifique dans un domaine où les stats sont assez importantes, de plus c’est un webeux. Il avait donc, à mon sens, le profil parfait pour venir convertir les analystes web aux vraies stats. Il est aussi balèze sur Street Fighter.

Mean-RacoonLa moyenne, selon Wikipedia, correspond à l’expression de « la grandeur qu’aurait chacun des membres [ndlr d’un ensemble de données] s’ils étaient tous identiques sans changer la dimension globale de l’ensemble ». Par exemple, lorsque l’INSEE dit que la taille moyenne des hommes de plus de 18 ans en France est de 1,75 m, cela signifie que si tous faisaient exactement 1,75 m et que l’on additionnait toutes ces tailles, nous obtiendrions le même total que si on additionnait toutes les tailles réelles. Pourtant, quand on entend que la taille moyenne des hommes est de 1,75 m, nous comprenons tous que cela ne veut pas dire que tout le monde mesure 1,75 m mais qu’il y a des petits, des grands, des moyens, des moins-moyens-mais-pas-trop-petits-quand-même, etc. et que ce chiffre n’est qu’une tendance globale. Voilà ce qu’il faut donc comprendre : en France, les hommes ont tendance à mesurer autour de 1,75 m.

Donc lorsque l’on parle de moyenne, il faut ajouter cette notion de variation, et c’est pour cela qu’il existe des indices de dispersion. Il y a par exemple l’écart type, l’erreur type, le coefficient de variation, l’intervalle de confiance, etc. Lorsque l’on représente une moyenne à l’aide d’un graphique, la dispersion se matérialise par des petites barres d’erreur.

L’autre notion importante, c’est le nombre de mesures qui ont été faites pour calculer notre moyenne : si l’INSEE disait que cette moyenne de 1,75 m était calculée à partir d’un groupe de 20 personnes, on serait en droit de douter que cette moyenne soit représentative… En revanche si cette même moyenne a été obtenue en mesurant plus de 30 000 personnes, on peut penser qu’elle est déjà plus solide.

Donc concrètement, si on veut par exemple représenter le nombre de visites quotidiennes d’un site internet en fonction du jour de la semaine, ça, c’est BIEN !!!

good-graphe

Mais ça, c’est PAS BIEN :

bad-graphe

Lorsque l’on regarde le deuxième graphique, on ne sait pas si les résultats sont des moyennes sur plusieurs semaines de visites, ou des données brutes de la dernière semaine… Un graphique doit TOUJOURS avoir des axes titrés. Si on a une moyenne, on le précise au moins dans le titre de l’axe vertical, et comme c’est une moyenne, on doit :

  • IMPÉRATIVEMENT ajouter à nos barres d’histogramme des barres d’erreur correspondant à un indice de dispersion

  • SYSTÉMATIQUEMENT préciser quel indice a été utilisé entre parenthèses dans le titre de l’axe.

  • OBLIGATOIREMENT préciser le total d’individus / de mesures qui constituent notre échantillon ou tout du moins un ordre d’idée quand celui s’il est très important (ici n > 2 millions).

Dans notre exemple, cela apporte des informations intéressantes : ici, sur des moyennes de visites obtenues sur plusieurs semaines, on voit que l’affluence est plus importante autour des week-ends, mais on voit aussi que la variation augmente ces mêmes jours !!! Cela implique qu’il y a des week-ends à fort trafic et d’autres avec un trafic plus faible. En milieu de semaine, les audiences sont plus basses, mais plus constantes.

Statisticians

Rajouter ces informations ne demandent franchement pas beaucoup d’efforts supplémentaires et permet à votre auditoire d’avoir toutes les informations nécessaires en un coup d’œil. On voit que vous êtes quelqu’un de rigoureux et précis. Aussi, si votre graphe est repompé hors-contexte par un de vos collègues / supérieurs adorés, au moins toutes les infos seront dessus. Il n’y a pas de mauvaises informations en statistiques, même si un paramètre “dérange” votre conclusion, il faut le considérer comme un élément de discussion. Il ne faut pas faire des stats qui vont dans le sens de l’idée que vous aviez a priori, mais construire votre conclusion en fonction de vos résultats.

Présentez vos moyennes proprement et vous obtiendrez la gloire dans votre travail, le respect soumis de vos collègues de même sexe et l’admiration de celles ou ceux du sexe opposé. Cela peut surprendre au début, mais ne soyez pas étonné si votre présentation se termine par un jeté de culottes, c’est le minimum quand on présente des stats correctes. Vous ne maîtrisez pas trop le calcul des indices de dispersion dans Excel ou l’utilisation des barres d’erreur ? Vous n’êtes pas trop sûr de savoir ce qu’est exactement un indice de dispersion ? Pas de panique, ce sera au programme de nos prochains billets, avec même des tutoriels vidéos et tout ! Soyez patient et vous recevrez vous aussi d’ici peu moult sous-vêtements en fin de réunion.

underwear-throwing

Par

Dr en sciences comportementales, data-nerd de formation et « geek » par passion, j’ai trouvé la lumière en me tournant vers le web analytics. Je partage mes trouvailles sur @SamuelPEAN.