Test du \chi^2
8. Test du \(\chi^2\)#
Modèle statistique du test \(\chi^2\).
Statistique de résumé.
Distribution d’échantillonage de \( T \), degrés de liberté.
Test d’indépendance \(\chi^2\).
\(\chi^2\))
(Test duSupposons qu’on observe \(n\) valeurs dont les fréquences observées dans \(k\) classes disjointes sont notés \(o_1,\ldots,o_k\). On note \(e_1,\ldots,e_k\) les fréquences théoriques correspondantes. Soit \(H_0\) : “les observations proviennent de la loi théorique spécifiée”. Une mesure de l’écart entre les deux distributions est donnée par la statistique \(\boldsymbol{\chi^2}\)
Sous \(H_0\), cette statistique \(T\) suit approximativement (pour \(n\) grand) une distribution \(\chi^2_\nu\) où
\(\nu = k-1 \) si les \(e_i\) peuvent être calculés sans avoir à estimer des paramètres inconnus;
\(\nu = k-1-c\) si les \(e_i\) sont calculés après avoir estimé \(c\) paramètres.
\(\chi^2\))
(LoiSoient \(Z_1,\ldots,Z_\nu \stackrel{idd}{\sim} \mathcal{N}(0,1)\). Alors on définit la loi de \(Z_1^2+\cdots + Z_\nu^2 \sim \chi^2_\nu\). On a les propriétés suivantes:
Si \(X\sim \chi^2_\nu\), alors \(X\) prends des valeurs dans \([0,\infty)\).
Si \(X\sim \chi^2_\nu\), alors \(\E(X) = r\) et \(\var(X) = 2\nu\).
Si \(X \sim \chi^2_\nu\), alors \(X \sim \Gamma\left(\frac{\nu}{2},2\right)\).
Si \(Y_1, \ldots, Y_\nu \stackrel{idd}{\sim} \chi^2\), alors \(\sum_{i = 1 }^\nu Y_i \sim \chi^2_\nu\).
Remarques
Recommandation: si besoin, regrouper les données de telle façon que les \(e_i > 5\) pour \(i=1,\ldots,k\). Ceci pour que la convergence de \(T\) vers la loi \(\chi^2_\nu\) soit le moins déraisonnable possible.
Aucune alternative précise: on rejette « rejet de \(H_0\) ».
\(H_0\) est rejeté pour les grandes valeurs de la valeur observée
Si \(t_{\rm obs}>\chi^2_{\nu ;1-\alpha}\) on rejette \(H_0\), sinon on ne la rejette pas.
(Equilibre du dé)
\(n=60\) jets d’un d’e ont donn’e la r’epartition suivante:
Testons \(H_0\) : « équilibre du dé ». Prenons \(\alpha = 5\%\).
Solution
Sous \(H_0\) la fonction de masse est
où \(X\) est le numéro obtenu. Donc
et \(T\stackrel{H_0}{\stackrel{\cdot}{\sim}} \chi^2_r\) avec \(r = k-1 = 6 - 1 = 5\) où \(k\) = 6 classes (faces). On a \(\chi^2_{5 ,0.95} = 11.07 > 8.6 = t_{\rm obs}\) donc on ne rejette pas \(H_0\).
On a mesuré le QI de \( n = 1000 \) personnes. Le QI est fait pour être distribué quasi comme une Gaussienne \( \mathcal{N}(100, 15^2) \).
Testons au niveau de signification \( \alpha = 5\% \) la distribution du QI.
Solution
Calculons les probabilités de chaque classe sous le modèle Gaussien. On a:
Les valeurs théoriques \(e_i\) sont donc:
La statistique de test vaut:
On a 6 observations et on a ajusté aucun paramètre. Le degré de liberté est donc \( r = 5\). Le seuil est: \( \chi^2_{5 ,0.95}= 11.07 < 13.12 \). On rejette donc l’hypothèse nulle à \(5\%\).
(Tableau de contingence)
L’utilité principale du test \(\chi^2\) est de tester l’indépendance de deux variables discrètes \( A, B\). Soit \( h \) le nombre de classes de \( A \) et \( k \) celui de \( B \). On appelle tableau de contingence d’un jeu de données le tableau qui répertorie les fréquences d’observation de chaque paire \( A,B \).
(Test d’indépendance)
On considère l’hypothèse nulle suivante \(H_0\): les variables sont indépendantes. Ainsi \(H_0\) est équivalente à
où \( \mathbb{P}(A=i)\) et \( \mathbb{P}(B=j) \) sont estimées dans les données:
Donc, la prédiction pour \( n_{i,j}\) est:
On utilise alors la statistique de test
Sous certaines hypothèses optimistes, \(T \sim \chi^2_{r} \), où le nombre de degrés de liberté \(r\) est donné par
Donc, pour tester l’indépendance de \( A, B \):
On construit le tableau de contingence.
On calcule \( t_{obs}\) à partir du tableau.
On compare \( t_{obs}\) au quantile d’une loi \( \chi^2_{(h-1)(k-1)} \).
On a vu en un premier temps que le test du \(\chi^2\) permettait de comparer des fréquences théoriques avec des fréquences empiriques. Comment peut-on en faire un test d’indépendance?
En fait, sous l’hypothèse d’indépendance les lois marginales caractérisent complètement la distribution jointe. Donc
on estime les lois marginales;
on compare la réalisation de la loi jointe (le tableau de contingence) avec la loi théorique dérivée des lois marginales et de l’hypothèse d’indépendance.
On a relevé parmi 95 personnes la couleur de leurs yeux (caractère \(A\)) et celle de leurs cheveux (caractère \(B\)) et on a obtenu les r’esultats suivants:
On désire tester (\(\alpha = 0.05\)) si la couleur des cheveux est indépendante de celle des yeux.
Solution
Les valeurs attendues sous indépendance sont:
La statistique résumé vaut:
Le degré de liberté est \( r = (3-1)(2-1) = 2 \). Le seuil est donc: \( \chi^2_{2 ,0.95}= 5.99 \).
On peut donc conclure en rejetant l’hypothèse nulle d’indépendance de la couleur des yeux et de celle des cheveux.