La moyenne – Épisode 2 : représenter la dispersion dans Excel [Vidéo]
![La moyenne – Épisode 2 : représenter la dispersion dans Excel [Vidéo]](http://www.slow-lab.com/wp-content/themes/ribbons/functions/timthumb.php?src=http://www.slow-lab.com/wp-content/uploads/2014/04/MathNerd.jpg&h=125&w=125)
Dans cet article, nous allons voir comment représenter une moyenne avec indice de dispersion dans Excel, comme présenté dans le billet précédent, et tout cela grâce à un magnifique tutoriel vidéo ! #Pédagogie
Nous allons reprendre pas-à-pas et de manière détaillée les différentes étapes de la vidéo, mais aussi apporter quelques précisions.
Google Analytics : comment choisir la durée (pas le chocolat) ?
Tout d’abord du côté de Google Analytics, il faut avant tout choisir une période. Dans notre cas, quel pas de temps choisir ? Il faut savoir qu’en statistiques, ce qui compte en matière d’échantillonnage, c’est essentiellement le nombre d’éléments qui constitue notre moyenne. Quand une moyenne est calculée à partir de plus de 30 éléments, on parle d' »échantillon de grande taille ». En-dessous de 10 éléments, c’est un peu léger… Comme notre but est de moyenner les lundis entre eux, les mardis entre eux, etc… il nous fait donc prendre au minimum 10 semaines pour faire quelque chose de propre… Or, 12 semaines, cela correspond à 3 mois, donc c’est parfait !
Nous allons donc choisir nos 12 semaines, à partir du premier lundi de janvier (le 6-01-2014) et donc aller jusqu’au dernier dimanche de mars (30-03-2014) :
Ensuite, on vérifie qu’on a bien la métrique « Visite » et qu’on est en vue journalière :
Puis, on exporte en prenant soin de bien choisir le format « Excel (XLSX) » :
Excel : création du tableau croisé dynamique
Quand on ouvre le fichier Excel généré par Google Analytics, on remarque que l’on a que 2 colonnes : la date au format numérique et le nombre de visites. Pour réaliser notre tableau croisé dynamique (qu’on appelle un TCD quand on est un vrai bonhomme), il faut d’abord rajouter les jours de la semaine (lundi, mardi, etc.) pour que nous puissions regrouper nos données en fonction de ça. On pourrait faire ça à la main, mais on risque de créer une erreur entre ce que l’on pense avoir pris et ce qu’on a réellement sélectionné. Nous allons donc utiliser une formule simple pour retrouver l’information du jour à partir de la date donnée.
Tout d’abord on ajoute notre colonne en faisant un clic droit sur notre colonne « Visits » et en choisissant insertion.
On choisi un titre pour cette nouvelle colonne (en B1), par exemple « Jour de la semaine ». On peut aussi en profiter pour changer le titre de la colonne C « Visits » par « Nombre de visites ». Dans la deuxième cellule de notre nouvelle colonne (donc en B2) on entre la formule suivante : =TEXTE(A2, »jjjj »). Et là, magie !!! « Lundi » apparaît dans notre cellule, c’est magique !
Il faut ensuite étendre cette formule jusqu’en bas de la colonne.
ATTENTION !!! Une fois en bas du tableau il faut bien penser à supprimer la dernière valeur de la colonne C, qui correspond en fait au total colonne ajouté automatiquement par Excel.
Ensuite, il suffit de se placer sur n’importe quelle cellule contenant une de nos données et de choisir dans le ruban Office, « Insertion > Tableau croisé dynamique ».
Une fenêtre apparaît alors pour la création du TCD, il suffit de vérifier qu’Excel ait bien sélectionné les données que l’on veut traiter et de cliquer sur OK.
Une fois le TCD créé, dans la partie gauche de la fenêtre, il faut maintenant glisser-déposer « Jour de la semaine » dans la boîte « Lignes » et « Nombre de visites » dans la boîte « Valeurs » comme montré ci-dessous.
Par défaut, Excel calcule la somme de lundis, des mardis, etc. Nous ce qui nous intéresse, c’est d’en avoir la moyenne. Pour cela, rien de plus simple, il suffit de faire un clic droit sur un des éléments de la colonne et d’aller dans « Paramètres des champs de valeurs » pour modifier la somme en moyenne.
Pour calculer l’écart type, rien de plus simple ! Il suffit de glisser-déposer une nouvelle fois l’élément « Nombre de visites » vers la boîte « Valeurs ». Encore une fois, Excel calcule par défaut la somme, mais en refaisant un clic droit > « Paramètres des champs de valeurs » il est possible de choisir de calculer l’écart type.
ATTENTION !!! Il faut choisir « Écartype » et non « Écartypep ». Écartypep sert uniquement quand on travaille sur une population totale et non un échantillon, ce qui est très rarement le cas. Dans le cas d’analyse de trafic, « Écartypep » ne serait valable que si l’on utilise toutes les données depuis la création du site.
Pro-Tip : On peut rajouter une troisième colonne « Valeurs » et avec un clic droit sur « Paramètres des champs de valeurs » demander le nombre de données. Dans notre exemple, on obtient bien 12 valeurs pour chaque lundi, mardi, etc. Donc nos données sont bien complète. Cette petite astuce est très importante et permet de s’assurer de l’intégrité de ses données.
Voilà, on a un joli tableau final qui va nous permettre de faire un graphique qui pète la classe par paquet de 20.
Excel : création du graphique avec barres d’erreur
Nous allons passer maintenant à la création du graphique. Pour cela la première chose à faire est de copier les données du tableau croisé dynamique qui nous intéresse pour les coller ailleurs. On ne va prendre que les 3 premières colonne et on ne va pas prendre la dernière ligne de Total général qui ne nous sert à rien.
Pour le moment, on ne sélectionne que notre colonne « Étiquettes … » et notre colonne de moyennes pour créer l’histogramme.
Ensuite, nous allons ajouter no barres d’erreur customisées en allant dans le menu « Création » du ruban, puis dans « Ajouter un élément de graphique » et « Barres d’erreur ».
Ensuite, il faut préciser nos valeurs personnalisées pour les barres d’erreur. Pour ce faire, il faut faire un clic droit sur l’une d’entre elles et choisir « Format des barres d’erreur’.
On choisi des valeurs « Personnalisées ».
Puis on choisi nos données la colonne écart type pour les valeurs positives ET négatives.
Enfin, il suffit de rajouter des titres aux axes, en précisant pour l’axe des ordonnées (en vertical) qu’il s’agit de moyennes avec écart type et dans le titre de mettre que nos moyennes sont calculer sur 12 semaines.
Voilà, c’est fini, on a un joli graphique avec toutes les infos statistiques nécessaires pour avoir trop la classe en réunion.