"

8.1.3 Ajustement des surfaces par les moindres carrés

Il n’y a qu’un pas entre l’idée d’effectuer une régression au moyen d’une droite ou d’une courbe polynomiale et le fait de réaliser que les mêmes méthodes peuvent être utilisées pour faire la synthèse des effets de plusieurs variables quantitatives x_1, x_2, \ldots, x_{k} sur une réponse y. D’un point de vue géométrique, le problème consiste à effectuer une régression avec une équation du type
.
8.1.3.1                    y \approx \beta_{0}+\beta_1 x_1+\beta_2 x_2+\cdots+\beta_{k} x_{k}
.
et ainsi ajuster la surface correspondante aux données par la méthode des moindres carrés. C’est ce qui est représenté en trois dimensions sur la figure 8.1.3.1 pour un cas où k=2, avec six points de données \left(x_1 x_2, y\right) et une surface d’ajustement possible de la forme 8.1.3.1. Pour faire la régression d’un ensemble de n points de données \left(x_{1 i}, x_{2 i}, \ldots, x_{k i}, y_{i}\right) avec une équation de la forme 8.1.3.1 en utilisant la méthode des moindres carrés, il faut minimiser la fonction de k+1 variables
.
S\left(\beta_{0}, \beta_1, \beta_2, \ldots, \beta_{k}\right)=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^2=\sum_{i=1}^{n}\left(y_{i}-\left(\beta_{0}+\beta_1 x_{1 i}+\cdots+\beta_{k} x_{k i}\right)\right)^2
.
en choisissant les coefficients \beta_{0}, \beta_1, \ldots, \beta_{k}. En mettant les dérivées partielles par rapport aux coefficients \beta égales à 0, on obtient des équations normales, généralisant ainsi les équations de régression linéaire. La résolution de ces k+1 équations linéaires à k+1 inconnues \beta_{0}, \beta_1, \ldots, \beta_{k} constitue la première étape d’une régression linéaire multiple. Les coefficients de régression b_{0}, b_1, \ldots, b_{k} qui en sont issus minimisent S\left(\beta_{0}, \beta_1, \beta_2, \ldots, \beta_{k}\right).
.

Figure 8.1.3.1 Six points de données (x1, x2, y) et une surface d’ajustement possible.

.

Exemple 8.1.3.1 Ajustement par une surface et données de Brownlee sur les pertes dans la cheminée

Le tableau 8.1.3.1 contient une partie d’un ensemble de données sur le fonctionnement d’une usine d’oxydation de l’ammoniac en acide nitrique qui a été publié pour la première fois dans l’ouvrage de Brownlee « Statistical Theory and Methodology in Science and Engineering ». Durant le fonctionnement de l’usine, l’oxyde nitrique produit est absorbé dans une cheminée d’extraction à contre-courant.
.
La variable de flux d’air, x_1, correspond au taux de fonctionnement de l’installation. La variable de concentration en acide, x_3, correspond au pourcentage en circulation moins 50, multiplié par 10. La variable de réponse, y, correspond à 10 fois le pourcentage d’ammoniac entrant qui s’échappe de la cheminée sans être absorbé (essentiellement, c’est une mesure inverse de l’efficacité globale de l’installation). Afin de comprendre, prévoir, et si possible optimiser les performances de l’usine, il serait utile d’avoir une équation décrivant la manière dont y dépend de x_1, x_2, et x_3. L’ajustement des surfaces par les moindres carrés constitue une méthode pour obtenir ce type d’équation empirique.
.
La capture d’écran 8.1.3.1 présente les résultats d’un Jupyter Notebook en Python exécuté pour produire une équation de régression de la forme
.
\hat{y}=b_{0}+b_1 x_1+b_2 x_2+b_3 x_3
.

Tableau 8.1.3.1 Données de Brownlee sur les pertes dans la cheminée

.

L’équation générée par le programme est
.
8.1.3.2                    \hat{y}=-37,65+0,80 x_1+0,58 x_2-0,07 x_3
.
avec R^2=0,975. Les coefficients de cette équation peuvent être vus comme le taux de variation des pertes dans la cheminée en fonction des variables individuelles x_1, x_2, et x_3, si on garde les autres variables constantes. Par exemple, b_1=0,80 représente l’augmentation des pertes dans la colonne y qui accompagne une augmentation de flux d’air x_1 d’une unité si la température de l’eau x_2 et la concentration en acide x_3 sont constantes. Les signes des coefficients indiquent si y tend à augmenter ou à diminuer avec l’augmentation des valeurs de x correspondantes. Par exemple, le fait que b_1 soit positif indique que plus l’usine fonctionne à un rythme élevé, plus y tend à avoir une valeur élevée (ce qui signifie que l’usine fonctionne de manière moins efficace). La valeur importante de R^2 est un premier indicateur de l’efficacité de l’équation 8.1.3.2 pour représenter les données.
.
L’équation de régression est
cheminée = -37,65 + 0,80 air + 0,58 eau + -0,07 acide.

Capture d’écran 8.1.3.1 : Régression multiple des données sur les pertes dans la cheminée.

.

Capture d’écran 8.1.3.2 : Tableau ANOVA des données sur les pertes dans la cheminée pour la régression multiple.
Objectif de la régression multiple

Bien que les techniques de régression de données à plusieurs variables au moyen d’équations de la forme 8.1.3.1 soient relativement simples, le choix et l’interprétation des équations appropriées ne sont pas aussi évidents. Lorsqu’un grand nombre de variables x sont prises en compte, le nombre d’équations potentielles de la forme 8.1.3.1 est considérable. Et pour ne rien arranger, il n’existe pas de méthode totalement satisfaisante pour représenter graphiquement plusieurs variables \left(x_1, x_2, \ldots, x_{k}, y\right) et « voir » la qualité de la régression. Tout ce que nous pouvons faire à ce stade est d’offrir le conseil général de rechercher l’équation de régression la plus simple permettant un ajustement adéquat aux données, puis de fournir des exemples de la manière dont R^2 et le tracé des résidus peuvent constituer des outils utiles pour résoudre les difficultés qui se présentent.

Exemple 8.1.3.2 (suite)

Dans le cas de l’usine de production d’azote, il est pertinent de se demander si les trois variables, x_1, x_2, et x_3, sont nécessaires pour représenter de manière adéquate la variation de y observée. Par exemple, l’évolution des pertes dans la cheminée pourrait être expliquée de manière appropriée en utilisant uniquement une ou deux des trois variables x. Cela aurait plusieurs conséquences pratiques importantes en matière d’ingénierie. Premièrement, dans un tel cas, le processus d’oxydation pourrait être décrit au moyen d’une version simple ou parcimonieuse de l’équation 8.1.3.1. Et si une variable ne s’avère pas nécessaire pour prédire y, alors des économies liées à sa mesure peuvent être réalisées. Ou alors, si une variable ne semble pas avoir de réel impact sur y (parce qu’il ne paraît pas essentiel de l’inclure dans l’équation décrivant le comportement de y), il doit être possible de l’ajuster pour des motifs purement économiques, sans crainte de dégrader l’efficacité du processus.
.
Pour déterminer si un sous-ensemble de x_1, x_2, et x_3 permet effectivement d’expliquer le comportement des pertes dans la cheminée, des valeurs de R^2 ont été calculées pour les équations basées sur tous les sous-ensembles possibles de x_1, x_2 et x_3, et elles ont été regroupées dans le tableau 8.1.3.2. Ce tableau montre que, par exemple, 95 \% de la variabilité totale en y peut être prise en compte à l’aide d’une équation linéaire comprenant uniquement la variable de débit d’air x_1. L’utilisation de x_1 et de la variable de température de l’eau x_2 permet de rendre compte de 97.3 \% de la variabilité totale des pertes dans la cheminée. Inclure x_3, la variable de concentration en acide, dans une équation comprenant déjà x_1 et x_2, ne fait passer la valeur de R^2 que de 0,973 à 0,975.
.

Tableau 8.1.3.2
.
Si l’objectif est d’obtenir une équation de régression simple et correctement ajustée aux données pour les pertes dans la cheminée, le tableau 8.1.3.2 semble indiquer qu’il faut d’abord tenir compte de x_1, puis éventuellement de x_2. À la lumière de ces valeurs de R^2, il semble inutile d’inclure un terme en x_3 dans l’équation de y. Rétrospectivement, ceci est tout à fait cohérent avec le comportement de l’équation de régression 8.1.3.1 : x_3 varie entre 72 et 93 dans la série de données originale, ce qui signifie que la valeur de\hat{y} n’évolue globalement que de
.
0,07(93-72) \approx 1,5
.
par rapport à une variation de x_3. (Il faut se rappeler que 0,07=b_3= pente de y en fonction de x_3 dans l’équation de régression.) Une valeur de 1,5 est relativement peu élevée comparée à la plage des valeurs de y observées.
.
Une fois que les valeurs de R^2 ont été utilisées pour identifier les simplifications possibles de l’équation
.
\hat{y}=b_{0}+b_1 x_1+b_2 x_2+b_3 x_3
.

elles peuvent et doivent être intégrées à une analyse approfondie des résidus, avant d’être validées en tant que données de synthèse. À titre d’exemple, considérons une équation de régression en x_1 et x_2. Un programme de régression linéaire multiple peut être utilisé pour produire l’équation de régression suivante :

.
8.1.3.3                     \hat{y}=-42,00-0,78 x_1+0,57 x_2
.

(Il faut noter que les valeurs de b_{0}, b_1, et b_2 de l’équation 8.1.3.3 diffèrent légèrement des valeurs de l’équation  8.1.3.2. En effet, l’équation 8.1.3.3 n’a pas été obtenue

Le fait de supprimer une variable dans une équation de régression en modifie généralement les coefficients.

en reprenant simplement l’équation 8.1.3.2 et en supprimant le dernier terme. Généralement, les valeurs des coefficients b changent en fonction des variables x qui sont incluses ou non dans la régression.)
.

Les résidus issus de l’équation 8.1.3.3 peuvent être calculés et représentés de différentes manières potentiellement utiles. La figure 8.1.3.2 présente un graphique normal des résidus et trois autres graphiques des résidus en fonction dex_1, x_2, et \hat{y}, respectivement. Les graphiques de la figure 8.1.3.2 n’apportent pas d’information très significative, sauf peut-être que l’ensemble de données présente une valeur de x_1 inhabituellement élevée ainsi qu’une valeur de \hat{y} inhabituellement élevée (qui elle-même correspond à la valeur élevée de x_1 ). Toutefois, le tracé des résidus en fonction de x_1 présente une configuration curviligne « croissante-décroissante-croissante » permettant de suggérer l’ajout d’un terme en x_1^2 à l’équation de régression 8.1.3.3.

.

Il convient de vérifier que l’utilisation d’une équation de régression du type
.
y \approx \beta_{0}+\beta_1 x_1+\beta_2 x_2+\beta_3 x_1^2
.
pour les données du tableau 8.1.3.1 donne approximativement
.
8.1.3.4                    \hat{y}=-15,409-0,069 x_1+0,528 x_2+0,007 x_1^2
.

avec R^2=0,980 et des résidus présentant une tendance encore moins marquée que ceux de l’équation de régression 8.1.3.3. Et on remarquera que le signe d’une courbure identifié sur le graphique des résidus en fonction de x_1 pour l’équation 8.1.3.3 n’apparaît pas sur le graphique équivalent pour l’équation 8.1.3.4. Il est intéressant de noter, à travers cet exemple, que l’équation de régression 8.1.3.4 présente une meilleure valeur R^2 que l’équation de régression 8.1.3.2, malgré le fait que l’équation 8.1.3.2 implique la variable de processus x_ [latex][/latex] et pas l’équation 8.1.3.4.... Figure 8.1.3.2 Graphique des résidus issus d’une équation de régression à deux variables pour les données des pertes dans la colonne d’extraction ( yˆ =−42,00 − 0,78x1 + 0,57x2 ).... L’équation 8.1.3.4 est un peu plus complexe que l’équation 8.1.3.3. Mais parce qu’elle n’implique toujours que deux variables d’entrée [latex][/latex]x width= »546″ height= »454″ /> Figure 8.1.3.2 Plots of residuals from a two-variable equation fit to the stack loss data ( yˆ =−42.00 − .78×1 + .57×2 )[/caption] . Equation (8.1.3.4) is somewhat more complicated than equation (8.1.3.3). But because it still really only involves two different input [latex][/latex]x" class="latex mathjax"></div> </div> <div>.</div> <div><img class="wp-image-450 size-full" src="https://ecampusontario.pressbooks.pub/app/uploads/sites/4023/2024/02/120_1.jpg" alt="" width="546" height="454" /> Figure 8.1.3.2 Plots of residuals from a two-variable equation fit to the stack loss data ( yˆ =−42.00 − .78x1 + .57x2 )et qu’elle élimine également la légère tendance observée sur le graphique des résidus de l’équation 8.1.3.3 en fonction de x_1, elle semble être un choix intéressant pour présenter une synthèse des données sur les pertes dans la cheminée. La figure 8.1.3.3 présente un nuage de points 3D des valeurs x1 et x2 issues de l’équation de régression 8.1.3.4. La figure 8.1.3.4 présente une vue 2D de la surface d’ajustement définie par l’équation 8.1.3.4. La légère courbure du tracé résulte du terme en x_1^2 qui apparaît dans l’équation 8.1.3.4. Étant donné que x_1 varie entre 50 et 62 et x_2 varie entre 17 et 24 pour la majorité des données, le graphique démontre que sur ces plages de valeurs, x_1 semble influencer les pertes dans la cheminée davantage que x_2. Cette conclusion est cohérente avec la réflexion menée autour du tableau 8.1.3.2.

Figure 8.1.3.3 Nuage de points 3D des données issues de l’équation de régression 8.1.3.4.

.

Figure 8.1.3.4 Courbes des pertes dans la cheminée issues de l’équation de régression 8.3.1.4

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.