7.1.2 Corrélation d’échantillon et coefficient de détermination

Corrélation

Visuellement, la droite des moindres carrés de la figure 7.1.1.3 semble bien correspondre aux points indiqués. Cependant, il serait utile de disposer de méthodes permettant de quantifier la qualité de cette régression. L’une de ces méthodes est la corrélation d’échantillon.

DÉFINITION Corrélation (linéaire) d’échantillon

EXPRESSION 7.1.2.1

La corrélation (linéaire) d’échantillon entre x et y dans un échantillon de n paires de données \left(x_i, y_i\right) est

r=\frac{\sum\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum\left(x_i-\bar{x}\right)^2 \cdot \sum\left(y_i-\bar{y}\right)^2}}

Interprétation de la corrélation d’échantillon

La corrélation d’échantillon se situe toujours entre -1 et 1 inclusivement. Elle est égale à -1 ou à 1 uniquement lorsque tous les points de données (x , y) se situent sur une même ligne droite. En comparant les équations 7.1.1.5 et 7.1.2.1, on constate que r=b_1\left(\sum\left(x_i-\bar{x}\right)^2 / \sum\left(y_i-\bar{y}\right)^2\right)^{1 / 2}, ce qui indique que b_1 et r ont le même signe. Ainsi, une corrélation d’échantillon de -1 signifie que y diminue de façon linéaire lorsque x augmente, tandis qu’une corrélation d’échantillon de +1 signifie que y augmente de façon linéaire lorsque x augmente.

Les ensembles de données réelles sont rarement en corrélation parfaite (+1 ou -1). La valeur de r est généralement comprise entre -1 et 1. Mais en se basant sur les faits relatifs à son comportement, on considère r comme une mesure de la force d’une relation linéaire apparente : un r proche de +1 ou -1 est interprété comme indiquant une relation linéaire relativement forte, et un r proche de 0, comme indiquant une absence de relation linéaire. Le signe de r indique si y tend à augmenter ou à diminuer lorsque x augmente.

Exemple 7.1.2.2 (suite)

Pour les données relatives à la pression et à la densité, les données récapitulatives de l’exemple donnent :

r=\frac{5 840}{\sqrt{(120 000 000)(0,289366)}}=0,9911

Cette valeur de r est proche de +1 et indique clairement la forte relation linéaire positive mise en évidence dans les figures 7.1.1.1 et 7.1.1.3.

Coefficient de détermination

DÉFINITION Coefficient de détermination

EXPRESSION 7.1.2.2

Pour une équation de régression d’un ensemble de données de n points obtenue par la méthode des moindres carrés produisant des valeurs ajustées y, le coefficient de détermination vaut :

R^2=\frac{\sum\left(y_i-\bar{y}\right)^2-\sum\left(y_i-\hat{y}_i\right)^2}{\sum\left(y_i-\bar{y}\right)^2}

Interprétation de R^2

R^2 peut être interprétée comme la fraction de la variation brute de y prise en compte par l’équation ajustée,  à condition que l’équation ajustée comprenne une constante, \sum\left(y_i-\bar{y}\right)^2 \geq \sum\left(y_i-\hat{y}_i\right)^2. De plus, \sum\left(y_i-\bar{y}\right)^2 est une mesure de la variabilité brute de y, tandis que \sum\left(y_i-\hat{y}_i\right)^2 est une mesure de la variation de y restante après la régression de l’équation. La différence non négative \sum\left(y_i-\bar{y}\right)^2-\sum\left(y_i-\hat{y}_i\right)^2 est donc une mesure de la variabilité de y prise en compte dans le processus de régression. R^2 exprime cette différence sous forme de fraction (de la variation brute totale).

Exemple 7.1.2.2 (suite)

En utilisant la droite de régression, on peut trouver les valeurs \hat{y} pour tous les n = 15 points de données de l’ensemble de données d’origine. Ces valeurs sont indiquées dans le tableau 7.1.2.1.

 

Tableau 7.1.2.1 Valeurs de densité ajustées

Ensuite, en se reportant à nouveau au tableau 7.1.1.1,

\begin{aligned} \sum\left(y_i-\hat{y}_i\right)^2= & (2,486-2,4723)^2+(2,479-2,4723)^2+(2,472-2,4723)^2 \\ & +(2,558-2,5697)^2+\cdots+(2,879-2,8617)^2 \\ & +(2,858-2,8617)^2 \\ = & 0,005153 \end{aligned}

De plus, puisque \sum\left(y_i-\bar{y}\right)^2=0,289366, l’équation 7.1.2.2 donne :

R^2=\frac{0,289366-0,005153}{0,289366}=0,9822

Ainsi, la droite de régression représente plus de 98 % de la variabilité brute de la densité, réduisant la variation « inexpliquée » de 0,289366 à 0,005153.

R^2 en tant que corrélation quadratiqueLe coefficient de détermination a une deuxième interprétation utile. Pour les équations dont les paramètres sont linéaires (qui sont les seules pris en compte ici et qui seront abordées en détail ultérieurement), R^2 s’avère être une corrélation quadratique entre les valeurs observées y_i et les valeurs ajustées \hat{y}_i. (Dans la régression linéaire –le cas qui nous intéresse en ce moment –, les valeurs \hat{y}_i sont parfaitement corrélées avec les valeurs x_i, R^2 est donc également la corrélation quadratique entre les valeurs y_i et x_i.)

Exemple 7.1.2.3 (suite)

Pour les données relatives à la pression et à la densité, la corrélation entre x et y est la suivante :

r = 0,9911

Puisque \hat{y} est parfaitement corrélé avec x, c’est aussi la corrélation entre \hat{y} et y. Notons également que

r^2=(0,9911)^2=0,9822=R^2

R^2 est bien la corrélation d’échantillon quadratique entre y et \hat{y}.

 

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.

Partagez ce livre