Régréssion linéaire: tests
Contents
3. Régréssion linéaire: tests#
3.1. Test de Student#
On rappelle que l’on a:
\( \hat{\boldsymbol{\beta}}\sim \mathcal{N}\left(\boldsymbol{\beta}, \sigma^2\left(\mathbf{X}^\top\mathbf{X}\right)^{-1}\right);\)
\(\frac{n-p}{\sigma^2} S^2 \sim \chi^2_{n-p} \)
\(\hat{\boldsymbol{\beta}}\) et \(S^2\) sont indépendants.
3.1.1. Intervalle de confiance pour \(\boldsymbol{\beta}_i\)#
Ainsi, on a
où \(t_{n-p}\) est une variable de Student de \(n-p\) de degrés de libertés et où \(v_{ii}\) est le ième élément diagonal de la matrice \(\mathbf{V} = (\mathbf{X}^\top \mathbf{X})^{-1}\).
On peut construire un intervalle de confiance pour \(\boldsymbol{\beta}_i\), basé sur la distribution de Student:
où \(s_\alpha\) est le quantile à \(1-\frac{\alpha}{2}\) de la loi \(t_{n-p}\) et où le niveau de confiance est \(1- \alpha \).
3.1.2. Tester \(\beta_i = 0\)#
A l’aide de la distribution de Student, on peut facilement faire un test d’hypothèse \(H_0: \beta_i = 0\) contre \(H_1: \beta_i \neq 0\). En effet, sous \(H_0\), on a
Ainsi, pour un niveau de signification fixé \(\alpha\), on rejette \(H_0\) si
où \(t_{n-p; 1-\alpha/2}\) est le quantile à \(1-\alpha/2\) de la loi de Student à \(n-p\) degrés de liberté.
3.2. Modèles emboîtés#
On suppose à présent que l’on dispose de \(p\) variables mais que l’on soupçonne que seules les \(q\) premières (à reparamétrisation près) variables ont réellement une influence sur la variable réponse.
L’ajustement sera toujours meilleur pour le modèle plein.
Est-il possible de tester si cet ajustement est significativement meilleur?
Soient \(\mathbf{y} = (y_1,\dots, y_n)^\top\) et \(\mathbf{X} = \left[ \mathbf{X}_1 \left| \right. \, \mathbf{X}_2 \right] \in \mathbb{R}^{n\times p}\) et où \(\mathbf{X}_1\in \mathbb{R}^{n\times q} \) et \(\mathbf{X}_2\in \mathbb{R}^{n\times (p-q)} \). On partitionne le vecteur de coefficients de manière similaire \(\boldsymbol{\beta} = \left[ \boldsymbol{\beta}_1 \left| \right. \, \boldsymbol{\beta}_2 \right]\), où \(\boldsymbol{\beta}_1\in \mathbb{R}^{q} \) et \(\boldsymbol{\beta}_1\in \mathbb{R}^{p-q}\).
On considère alors les modèle suivants:
et
où \(\boldsymbol{\varepsilon}\in \mathbb{R}^n \sim\mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}_n)\) et \(\sigma^2 >0\).
On voit immédiatement que le modèle (3.2) est un sous-modèle du modèle (3.1) il correspond au cas où \(\boldsymbol{\beta}_2 = \mathbf{0}_{p-q}\). On dit alors que ces modèles sont emboîtés.
La question initiale peut donc à présent se reformuler de la manière suivante: est-ce que l’on peut tester
La réponse est affirmative, et cela se fait en utilisant un test \(F\).
Soit \(\mathbf{H}_1 = \mathbf{X}_1\left(\mathbf{X}_1^\top\mathbf{X}_1\right)^{-1}\mathbf{X}_1^\top \) et \(\hat{\mathbf{y}}_1 =\mathbf{H}_1 \mathbf{y}.\) Alors on note
Alors sous \(H_0: \boldsymbol{\beta}_2 = \mathbf{0}_{p-q}\), on a
(Les données d’Ozone)
Voici trois modèles:
Le rouge semble être bien meilleur que le vert, mais que le rouge et le bleu semblent être similaires. Comment tester ce constat?
Comparons le modèle constant \(y=\alpha + \varepsilon\) et le modèle linéaire \(y=\alpha + \beta x + \varepsilon\).
Pour tester s’il vaut la peine d’ajouter \(\beta x\), on calcule
Si l’hypothèse nulle \(H_0:\beta = 0\) (modèle constant) est vraie alors \(F \sim F_{1,n-2}\).
Données d’ozone: on trouve \(F=204.32\), à comparer avec \(F_{1,205;0.975}= 5.098\).
Pour les données d’ozone, pour tester \(\gamma=\delta=0\) dans le modèle cubique
on calcule
et avec \(n=207\), \(p=4\), \(q=2\), on obtient
dont le quantile \(95\%\) est \(F_{2,203;0.975}= 3.756\).
(L’effet photoélectrique)
La loi de l’effet photoélectrique a marqué l’histoire de la physique comme étant une des premières incursion de la physique quantique. Lorsque l’on irradie (éclaire) un métal à une certaine fréquence, certains électrons quittent leur couche de valence. La loi de l’effet photoélectrique postule que la différence de potentiel qui engendre par cette émission d’électron satisfait:
où \(f\) est la fréquence du rayon incident, \(h\) est la constante de Planck, \(e\) dénote la charge élémentaire d’un électron, \(W_0\) est le travail nécessaire pour permettre l’extraction de l’électron. La loi de l’effet photoélectrique a marqué l’histoire de la physique comme étant une des premières incursion de la physique quantique.
observé expérimentalement dès la fin du 19\(^{\text{ième}}\) siècle (Hertz, 1887);
décrit de manière théorique par Einstein en 1905;
validé expérimentalement par Milikan (1915);
prix de Nobel de physique pour Einstein (1921).
Postule que la lumière se comporte en quanta.
D’après la relation
on peut déduire la constante de Planck, et on obtient
On verra plus tard comment construire des intervalles de confiance pour ces valeurs. La valeur actuelle de \(h\) est
et l’écart relatif entre les deux valeurs est de \(\sim 3.1\%\).