Boxplot
Contents
4. Boxplot#
Le boxplot (ou boîte à moustache pour les puristes) est un type de représentation graphique particulier, très apprécié des statisticiens. Il permet:
la visualisation de l’asymétrie;
la comparaison facile de jeux de données;
la visualisation de valeurs aberrantes.
Les cinq valeurs suivantes donnent un bonne description d’une variable:
Cette liste est à la base de la boîte à moustaches.
4.1. Calculs d’une boîte à moustaches#
Les bords du rectangle sont donnés par les quartiles. On indique la médiane par une ligne qui sépare la boîte. Pour les moustaches, on calcule 1.5 fois l’étendue interquartile:
Puis on calcule \( \hat{q}(25\%) - C \) et \( \hat{q}(75\%) + C \). Typiquement, toutes les valeurs de la variables sont entre ces seuils.
Si oui, on met les limites des moustaches au minimum et maximum.
Sinon, on mets les moustaches aux valeurs observées les plus proches des seuils contenues dans les moustaches et on représente les valeurs exceptionnelles par des points. Cela donne, en pratique:
M: Médiane
\(\text{Q}_{.25}\): quantile à 25%
EIQ: écart inter-quartile
\(\text{Q}_{.25}\): quantile à 75%
4.2. Comparaison de jeux de données#
Les boxplots sont particulièrement utiles pour la comparaison de plusieurs groupes.
Pr. Isabelle Bey (SIE - EPFL) a mesuré la concentration d’ozone au Jungfraujoch (noir), et a proposé une modélisation (rouge).
En comparant les boxplots, on voit que le modèle ne genère pas assez d’observations extrêmes.
Analyse initiale des données
La procédure suivante est une bonne manière d’analyser une variable quantitative:
représenter graphiquement les données;
étudier la structure des données: y a-t-il des valeurs extrêmes? Si oui, pourquoi? Doivent-elles être conservées ou exclues?
Calculer les synthèses numériques pour décrire les données;
éventuellement proposer un modèle des données. Un modèle est une manière de résumer et de traduire en des termes probabilistes le processus qui a engendré les données.