Graphiques
Contents
2. Graphiques#
Nous allons présenter comment résumer un jeu de données sous la forme d’un graphique. Un bon graphique permet de présenter efficacement un jeu de données.
Concepts clés:
histogramme, « boîte à moustaches » (boxplots) et famille;
notation \( x_{(i)} \) pour variables ordonnées;
principes d’une bonne représentation graphique.
2.1. Étude d’une variable quantitative#
Exemple 2.1
Le CHUV veut connaitre la fréquence des différents groupes sanguins en Suisse, pour prévoir des stocks appropriés. Pour cela, on a mesuré le groupe sanguin de 25 donneurs.
Diagramme en camembert (Pie chart):
Avertissement
À éviter: les comparaisons visuelles sont difficiles. Pas adapté quand les catégories sont déséquilibrées.
Diagrammes en barres:
Fig. 2.1 : La hauteur de chaque colonne correspond à la proportion dans l’échantillon du groupe sanguin.#
Exemple 2.2
Le poids de 92 étudiants d’une école américaine a été relevé dans une unité anglaise particulière, le pound.
Les données observées figurent dans le tableau suivant:
On peut transformer une variable continue en variable discrète.
On choisit une division en intervalles, et on compte le nombre d’observations correspondant à chaque intervalle. On obtient alors une table de fréquences:
Histogramme:
On peut varier le nombre d’intervalles afin de changer le niveau de précision de l’histogramme.
Pour certaines données, il est parfois intéressant de les transformer avant de les représenter.
Fig. 2.2 : Population mondiale entre l’an 0 et 2000. L’échelle logarithmique permet de visualiser clairement le taux de croissance. La population en 1200 était de 360 millions. Celle en 1600 de 545 millions.#
Faire de bon graphes
toujours avoir un titre pour la figure ainsi que des titres et des échelles pour les axes;
toujours avoir une description du graphe;
choisir des unités claires et intuitives;
adapter l’échelle au type de graphe. Parfois une transformation est nécessaire; certaines valeurs ont une signification particulière (extrema, etc) et peuvent être mises en évidences.
Si on a plusieurs graphes similaires, ils doivent avoir la même échelle afin de faciliter la comparaison.
Minimiser les fioritures: on communique de l’information.