Introduction
Contents
1. Introduction#
La régression concerne la dépendance d’une variable sur d’autres variables.
Variables et notations:
\(y\) : la variable d’interêt, appelée la variable de réponse, et on la considère comme variable aléatoire;
\(x_1,\ldots, x_n\): les autres variables, les covariables (variables explicatives), on les considère comme fixes (non aléatoires).
On s’intéresse entre autres à :
l’estimation d’une relation éventuelle entre \(y\) et les \(x_j\);
la prédiction des valeurs futures de \(y\) sachant les \(x_j\) correspondantes.
(Réaction chimique)
Prof. Christophe Holliger (SIE): on essaye de d’eterminer les paramètres cinétiques d’une « reductive dehalogenase dechlorinating tetrachloroethene (PCE) ». Ceci dépend de la concentration du substrat, et la vitesse de la réaction peut être exprimée par l’équation de Michaelis–Menten
où \(x\) est la concentration de PCE, \(\gamma_0\) est la vitesse maximale, et \(\gamma_1\) est la concentration quand \(y=\gamma_0/2\). Comment estimer \(\gamma_0\) et \(\gamma_1\)?
(Ozone atmosphérique)
Prof. Isabelle Bey (SIE): observations de la concentration de l’ozone au Jungfraujoch, de janvier 1987 à décembre 2005 (qqs valeurs manquantes), et résultats d’une modélisation. Soit \(y\) les données réelles et \(x\) les résultats du modèle.
On dispose d’un ensemble de points
qu’on peut représenter par un “scatterplot” comme ceux d’auparavant.
Si il y a une relation linéaire, on peut utiliser la corrélation pour mesurer la dépendance linéaire entre les variables.
D’une manière générale, le problème d’ajustement consiste à trouver une courbe \(y=\mu(x)\) qui résume « le mieux possible » le nuage de points. La fonction \(\mu(x)\) dépend de paramètres qu’il faut estimer. Comment?
1.1. Moindres carrés#
Les écarts verticaux entre les données \(y_j\) et la courbe \(\mu(x_j)\) sont
On cherche les paramètres de la fonction \(\mu(x)\) telle que la somme des carrés des écarts verticaux
soit minimale.
L’ajustement est dit linéaire si \(\mu(x) = \alpha + \beta x\). Dans ce cas, il faut minimiser
En fait, en minimisant la somme des carrés, on minimise une distance entre les \(y_j\) et \(\mu(x_j)\). Les ingrédients minimaux nécessaires sont
une forme paramétrique pour \(\mu(x_j)\): par exemple une droite, un polynôme ou autre;
une métrique pour mesurer la distance entre \(y_j\) et \(\mu(x_j).\)
Dans la pratique, on utilise le carré de la différence, mais bien d’autres distances peuvent être utilisées, avec d’autres propriétés.
(Estimateur des moindres carrés)
Soient \((x_1,y_1),\ldots, (x_n,y_n)\) issues d’un rélation \(y=\alpha+ \beta x\) et telles que au moins deux des \(x_j\) soient différents. Alors les estimateurs de moindres carrés de \(\alpha\) et \(\beta\) sont
(Droite des moindres carrés et résidus)
La droite \(\hat\alpha + \hat\beta x\) s’appelle la droite des moindres carrés, la valeur ajustée qui correspond à \((x_j,y_j)\) est \(\hat y_j= \hat\alpha + \hat \beta x_j\), et la différence
s’appelle un résidu.
(Ozone atmosphérique)
Il y a \(n=207\) paires (observation, modèle) = \((y_j,x_j)\), et 21 valeurs de \(x\) sans valeur observée
A partir des \(n\) paires complètes on trouve la droite des moindres carrés
Pour une paire (observation, modèle) = (?, \(x_+)\), on peut remplacer la valeur manquante par la valeur ajustée correspondante: