Test du \chi^2
8. Test du \(\chi^2\)#
Modèle statistique du test \(\chi^2\).
Statistique de résumé.
Distribution d’échantillonage de \( T \), degrés de liberté.
Test d’indépendance \(\chi^2\).
Définition 8.6 (Test du \(\chi^2\))
Supposons qu’on observe \(n\) valeurs dont les fréquences observées dans \(k\) classes disjointes sont notés \(o_1,\ldots,o_k\). On note \(e_1,\ldots,e_k\) les fréquences théoriques correspondantes. Soit \(H_0\) : “les observations proviennent de la loi théorique spécifiée”. Une mesure de l’écart entre les deux distributions est donnée par la statistique \(\boldsymbol{\chi^2}\)
Sous \(H_0\), cette statistique \(T\) suit approximativement (pour \(n\) grand) une distribution \(\chi^2_\nu\) où
\(\nu = k-1 \) si les \(e_i\) peuvent être calculés sans avoir à estimer des paramètres inconnus;
\(\nu = k-1-c\) si les \(e_i\) sont calculés après avoir estimé \(c\) paramètres.
Fig. 8.4 : Densité de la loi \(\chi^2_\nu\) pour \(\nu=1,2,5,10\) (noir, rouge, violet, bleu).#
Propriété 8.6 (Loi \(\chi^2\))
Soient \(Z_1,\ldots,Z_\nu \stackrel{idd}{\sim} \mathcal{N}(0,1)\). Alors on définit la loi de \(Z_1^2+\cdots + Z_\nu^2 \sim \chi^2_\nu\). On a les propriétés suivantes:
Si \(X\sim \chi^2_\nu\), alors \(X\) prends des valeurs dans \([0,\infty)\).
Si \(X\sim \chi^2_\nu\), alors \(\E(X) = r\) et \(\var(X) = 2\nu\).
Si \(X \sim \chi^2_\nu\), alors \(X \sim \Gamma\left(\frac{\nu}{2},2\right)\).
Si \(Y_1, \ldots, Y_\nu \stackrel{idd}{\sim} \chi^2\), alors \(\sum_{i = 1 }^\nu Y_i \sim \chi^2_\nu\).
Remarques
Recommandation: si besoin, regrouper les données de telle façon que les \(e_i > 5\) pour \(i=1,\ldots,k\). Ceci pour que la convergence de \(T\) vers la loi \(\chi^2_\nu\) soit le moins déraisonnable possible.
Aucune alternative précise: on rejette « rejet de \(H_0\) ».
\(H_0\) est rejeté pour les grandes valeurs de la valeur observée
Si \(t_{\rm obs}>\chi^2_{\nu ;1-\alpha}\) on rejette \(H_0\), sinon on ne la rejette pas.
Exemple 8.9 (Equilibre du dé)
\(n=60\) jets d’un d’e ont donn’e la r’epartition suivante:
Testons \(H_0\) : « équilibre du dé ». Prenons \(\alpha = 5\%\).
Solution
Sous \(H_0\) la fonction de masse est
où \(X\) est le numéro obtenu. Donc
et \(T\stackrel{H_0}{\stackrel{\cdot}{\sim}} \chi^2_r\) avec \(r = k-1 = 6 - 1 = 5\) où \(k\) = 6 classes (faces). On a \(\chi^2_{5 ,0.95} = 11.07 > 8.6 = t_{\rm obs}\) donc on ne rejette pas \(H_0\).
Exemple 8.10
On a mesuré le QI de \( n = 1000 \) personnes. Le QI est fait pour être distribué quasi comme une Gaussienne \( \mathcal{N}(100, 15^2) \).
Testons au niveau de signification \( \alpha = 5\% \) la distribution du QI.
Solution
Calculons les probabilités de chaque classe sous le modèle Gaussien. On a:
Les valeurs théoriques \(e_i\) sont donc:
La statistique de test vaut:
On a 6 observations et on a ajusté aucun paramètre. Le degré de liberté est donc \( r = 5\). Le seuil est: \( \chi^2_{5 ,0.95}= 11.07 < 13.12 \). On rejette donc l’hypothèse nulle à \(5\%\).
Définition 8.7 (Tableau de contingence)
L’utilité principale du test \(\chi^2\) est de tester l’indépendance de deux variables discrètes \( A, B\). Soit \( h \) le nombre de classes de \( A \) et \( k \) celui de \( B \). On appelle tableau de contingence d’un jeu de données le tableau qui répertorie les fréquences d’observation de chaque paire \( A,B \).
Définition 8.8 (Test d’indépendance)
On considère l’hypothèse nulle suivante \(H_0\): les variables sont indépendantes. Ainsi \(H_0\) est équivalente à
où \( \mathbb{P}(A=i)\) et \( \mathbb{P}(B=j) \) sont estimées dans les données:
Donc, la prédiction pour \( n_{i,j}\) est:
On utilise alors la statistique de test
Sous certaines hypothèses optimistes, \(T \sim \chi^2_{r} \), où le nombre de degrés de liberté \(r\) est donné par
Donc, pour tester l’indépendance de \( A, B \):
On construit le tableau de contingence.
On calcule \( t_{obs}\) à partir du tableau.
On compare \( t_{obs}\) au quantile d’une loi \( \chi^2_{(h-1)(k-1)} \).
On a vu en un premier temps que le test du \(\chi^2\) permettait de comparer des fréquences théoriques avec des fréquences empiriques. Comment peut-on en faire un test d’indépendance?
En fait, sous l’hypothèse d’indépendance les lois marginales caractérisent complètement la distribution jointe. Donc
on estime les lois marginales;
on compare la réalisation de la loi jointe (le tableau de contingence) avec la loi théorique dérivée des lois marginales et de l’hypothèse d’indépendance.
Exemple 8.11
On a relevé parmi 95 personnes la couleur de leurs yeux (caractère \(A\)) et celle de leurs cheveux (caractère \(B\)) et on a obtenu les r’esultats suivants:
On désire tester (\(\alpha = 0.05\)) si la couleur des cheveux est indépendante de celle des yeux.
Solution
Les valeurs attendues sous indépendance sont:
La statistique résumé vaut:
Le degré de liberté est \( r = (3-1)(2-1) = 2 \). Le seuil est donc: \( \chi^2_{2 ,0.95}= 5.99 \).
On peut donc conclure en rejetant l’hypothèse nulle d’indépendance de la couleur des yeux et de celle des cheveux.