7.1.2 Corrélation d’échantillon et coefficient de détermination

C. Bassim et Bryan Lee

7.1.2 Corrélation d’échantillon et coefficient de détermination

Corrélation

Visuellement, la droite des moindres carrés de la figure 7.1.1.3 semble bien correspondre aux points indiqués. Cependant, il serait utile de disposer de méthodes permettant de quantifier la qualité de cette régression. L’une de ces méthodes est la corrélation d’échantillon.

DÉFINITION Corrélation (linéaire) d’échantillon

EXPRESSION 7.1.2.1

La corrélation (linéaire) d’échantillon entre x et y dans un échantillon de n paires de données $\left(x_i, y_i\right)$ est

$r=\frac{\sum\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum\left(x_i-\bar{x}\right)^2 \cdot \sum\left(y_i-\bar{y}\right)^2}}$

Interprétation de la corrélation d’échantillon

La corrélation d’échantillon se situe toujours entre -1 et 1 inclusivement. Elle est égale à -1 ou à 1 uniquement lorsque tous les points de données (x , y) se situent sur une même ligne droite. En comparant les équations 7.1.1.5 et 7.1.2.1, on constate que $r=b_1\left(\sum\left(x_i-\bar{x}\right)^2 / \sum\left(y_i-\bar{y}\right)^2\right)^{1 / 2}$ , ce qui indique que $b_1$ et $r$ ont le même signe. Ainsi, une corrélation d’échantillon de -1 signifie que y diminue de façon linéaire lorsque x augmente, tandis qu’une corrélation d’échantillon de +1 signifie que y augmente de façon linéaire lorsque x augmente.

Les ensembles de données réelles sont rarement en corrélation parfaite (+1 ou -1). La valeur de r est généralement comprise entre -1 et 1. Mais en se basant sur les faits relatifs à son comportement, on considère r comme une mesure de la force d’une relation linéaire apparente : un r proche de +1 ou -1 est interprété comme indiquant une relation linéaire relativement forte, et un r proche de 0, comme indiquant une absence de relation linéaire. Le signe de r indique si y tend à augmenter ou à diminuer lorsque x augmente.

Exemple 7.1.2.2 (suite)

Pour les données relatives à la pression et à la densité, les données récapitulatives de l’exemple donnent :

$r=\frac{5 840}{\sqrt{(120 000 000)(0,289366)}}=0,9911$

Cette valeur de r est proche de +1 et indique clairement la forte relation linéaire positive mise en évidence dans les figures 7.1.1.1 et 7.1.1.3.

Coefficient de détermination

DÉFINITION Coefficient de détermination

EXPRESSION 7.1.2.2

Pour une équation de régression d’un ensemble de données de n points obtenue par la méthode des moindres carrés produisant des valeurs ajustées $y$ , le coefﬁcient de détermination vaut :

$R^2=\frac{\sum\left(y_i-\bar{y}\right)^2-\sum\left(y_i-\hat{y}_i\right)^2}{\sum\left(y_i-\bar{y}\right)^2}$

Interprétation de $R^2$

$R^2$ peut être interprétée comme la fraction de la variation brute de y prise en compte par l’équation ajustée, à condition que l’équation ajustée comprenne une constante, $\sum\left(y_i-\bar{y}\right)^2 \geq \sum\left(y_i-\hat{y}_i\right)^2$ . De plus, $\sum\left(y_i-\bar{y}\right)^2$ est une mesure de la variabilité brute de y, tandis que $\sum\left(y_i-\hat{y}_i\right)^2$ est une mesure de la variation de y restante après la régression de l’équation. La différence non négative $\sum\left(y_i-\bar{y}\right)^2-\sum\left(y_i-\hat{y}_i\right)^2$ est donc une mesure de la variabilité de y prise en compte dans le processus de régression. $R^2$ exprime cette différence sous forme de fraction (de la variation brute totale).

Exemple 7.1.2.2 (suite)

En utilisant la droite de régression, on peut trouver les valeurs $\hat{y}$ pour tous les n = 15 points de données de l’ensemble de données d’origine. Ces valeurs sont indiquées dans le tableau 7.1.2.1.

Tableau 7.1.2.1 Valeurs de densité ajustées

Ensuite, en se reportant à nouveau au tableau 7.1.1.1,

$\begin{aligned} \sum\left(y_i-\hat{y}_i\right)^2= & (2,486-2,4723)^2+(2,479-2,4723)^2+(2,472-2,4723)^2 \\ & +(2,558-2,5697)^2+\cdots+(2,879-2,8617)^2 \\ & +(2,858-2,8617)^2 \\ = & 0,005153 \end{aligned}$

De plus, puisque $\sum\left(y_i-\bar{y}\right)^2=0,289366$ , l’équation 7.1.2.2 donne :

$R^2=\frac{0,289366-0,005153}{0,289366}=0,9822$

Ainsi, la droite de régression représente plus de 98 % de la variabilité brute de la densité, réduisant la variation « inexpliquée » de 0,289366 à 0,005153.

$R^2$ en tant que corrélation quadratiqueLe coefﬁcient de détermination a une deuxième interprétation utile. Pour les équations dont les paramètres sont linéaires (qui sont les seules pris en compte ici et qui seront abordées en détail ultérieurement), $R^2$ s’avère être une corrélation quadratique entre les valeurs observées $y_i$ et les valeurs ajustées $\hat{y}_i$ . (Dans la régression linéaire –le cas qui nous intéresse en ce moment –, les valeurs $\hat{y}_i$ sont parfaitement corrélées avec les valeurs $x_i$ , $R^2$ est donc également la corrélation quadratique entre les valeurs $y_i$ et $x_i$ .)