Tests et IC
7. Tests et IC#
De nombreuses hypothèses concernent la valeur d’un paramètre \(\theta\).
Il y a alors un lien entre les intervalles de confiance pour \(\theta\) et les tests.
Supposons que \(H_0\) spécifie que \(\theta=\theta_0\), alors:
si \(\theta_0\) n’appartient pas à un IC pour \(\theta\) avec coefficient de confiance \(1-\alpha\), on rejette \(H_0\) au niveau de signification \(\alpha\);
si l’IC contient \(\theta_0\), on garde \(H_0\).
Cette procédure est équivalente à l’utilisation des statistiques de test des types
où \({\rm sd}(\hat\theta)\) est la déviation standard de \(\hat\theta\). Les valeurs observées sont
et on rejette \(H_0\) si elles sont grandes par rapport aux lois correspondantes.
(Test bilatéral et unilatéral)
Soient \(I, S\) les limites inférieure et supérieure d’un intervalle de confiance pour \(\theta\) avec coefficient de confiance \((1-\alpha)\).
Un test de l’hypothèse nulle \(H_0:\theta=\theta_0\) est bilatéral si l’hypothèse alternative est \(H_1:\theta\neq\theta_0\). Dans ce cas on rejette \(H_0\) au niveau de signification \(\alpha\) si et seulement si
Le test est unilatéral si l’alternative est soit \(H^-_1:\theta<\theta_0\), soit \(H^+_1: \theta>\theta_0\). Alors on rejette \(H_0\) au niveau de signification \(\alpha/2\) en faveur de \(H^-_1\) , respectivement \(H^+_1\), si et seulement si
(«pile et face » revisité)
En utilisant la méthode du maximum de vraisemblance, calculez l’estimateur de la probabilité \(\hat{p}\) correspondante ainsi que l’estimateur de la variance correspondant. En utilisant la distribution normale asymptotique, construisez un intervalle de confiance de Wald à 95%. Est-ce que cet intervalle contient la valeur \(p = \frac{1}{2}\)?
Solution
On estime \(\hat{p}\) par maximum de vraisemblance et on obtient
On calcule le point stationnaire et on en déduit:
On calcule la seconde dérivée, et on obtient:
Notons tout d’abord que la seconde dérivée est strictement convexe
Ainsi le point stationnaire est nécessairement un maximum car \(0 \leq k \leq n\) et \(0<p<1\).
La seconde dérivée évaluée en ce point vaut
Ainsi, on a:
On peut donc calculer un intervalle de Wald (bilatéral), basé sur la distribution normale. En utilisant \(k = 19\) et \(n = 30\), on obtient comme intervalle à 95%
qui contient la valeur \(p = \frac{1}{2}.\)
(Compteurs d’électricité)
On a contrôlé 10 compteurs d’électricité nouvellement fabriqués.
On aimerait savoir s’il y a un écart systématique entre la valeur standard 1000 et les compteurs qui sortent de la fabrication. La moyenne empirique est donnée par
Est-ce que c’est un hasard ou une faute de production ?
Solution
La moyenne empirique et la variance empirique de ces \(n=10\) observations sont:
La valeur attendue est \(\mu=1000\). La statistique de Student est donc:
Si on veut tester la présence d’un écart à \(5\%\) bilatéral, le seuil critique est donné par le quantile d’une loi Student à \(\nu = 9\) degrés de liberté, qui est donné par
L’écart observé empiriquement est plus important que ce qui est \og tolérable \fg{} au seuil de \(5\%\). En effet, on a \(t_{\rm obs} = -2.35 < t_{9;\alpha/2} = - 2.262\). On a donc un écart significatif: on conclut qu’il est très probable qu’il y ait une faute de production.
(Niveaux de confiance et de signification)
Le niveau de confiance d’un intervalle est la probabilité que l’intervalle aléatoire contienne la vraie valeur, c’est-à-dire typiquement 95%, et on le note \(1-\alpha\) en général.
Par ailleurs, le niveau de signification d’un test est la valeur tolérée d’erreur de type I, c’est-à-dire typiquement 5% et que l’on note \(\alpha\).
(Poids de rats)
On étudie chez 20 rats l’effet sur le gain de poids de deux régimes: l’un riche en protéines, l’autre pauvre.
Sous l’hypothèse que ces données sont Gaussiennes, effectuer un test au niveau de signification \(5\%\) pour l’hypothèse \( H_0 \): “les régimes sont équivalents” contre \( H_1 \): “les régimes sont différents”.
Solution
Concrètement, on suppose d’abord que
On pose
On calcule
Il nous faut une hypothèse sur les variance. Ici il semble raisonnable de supposer \(\sigma_1 = \sigma_2\) inconnues. Vérifions tout d’abord si cette hypothèse est raisonable en utilisant un test \(F\):
On a:
On utilise un test bilatéral basé sur les quantiles: \(F_{9,9 ;0.025} = 0.2484\) et \(F_{9,9 ;0.975} = 4.0259\), ainsi \(H_0\) n’est pas rejetée et on suppose maintenant \(\sigma_1^2 = \sigma^2_2=\sigma^2\). Revenons au test pour les moyennes, maintenant en supposant les variances égales. On estime \(\sigma^2\) en utilisant l’estimateur
Remarquons que le théorème de Cochran (pas mentionné dans ce cours par ailleurs) montre que, si \(X_1, \dots, X_n \stackrel{idd}{\sim} \mathcal{N}(\mu, \sigma^2)\), alors on a
Ainsi
et ainsi, la variable
Avec \(n_1=n_2 = 10\) on obtient la valeur r’ealis’ee \(s^2_p = 236.21 = 15.37^2\). On a \(\overline{X}_1 \sim \mathcal{N}(\mu_1,\sigma^2/n_1)\) et \(\overline{X}_2 \sim \mathcal{N}(\mu_2,\sigma^2/n_2)\), ainsi sous \(H_0 : \mu_1 = \mu_2\) on a
On considère donc la statistique de test
(bien noter les degrés de libertés \(n_1 +n_2 -2\)). Avec nos données on trouve \(t_{\rm obs} = -0.29\). On a \(t_{n_1+n_2-2,\alpha}= - 2.10\), donc puisque \(t_{\rm obs} > -2.10\) on ne rejette pas \(H_0\).