8.1.3 Ajustement des surfaces par les moindres carrés
8.1.3.1
.
Exemple 8.1.3.1 Ajustement par une surface et données de Brownlee sur les pertes dans la cheminée
.
8.1.3.2
cheminée = -37,65 + 0,80 air + 0,58 eau + -0,07 acide.
.
Objectif de la régression multiple
Bien que les techniques de régression de données à plusieurs variables au moyen d’équations de la forme 8.1.3.1 soient relativement simples, le choix et l’interprétation des équations appropriées ne sont pas aussi évidents. Lorsqu’un grand nombre de variables sont prises en compte, le nombre d’équations potentielles de la forme 8.1.3.1 est considérable. Et pour ne rien arranger, il n’existe pas de méthode totalement satisfaisante pour représenter graphiquement plusieurs variables et « voir » la qualité de la régression. Tout ce que nous pouvons faire à ce stade est d’offrir le conseil général de rechercher l’équation de régression la plus simple permettant un ajustement adéquat aux données, puis de fournir des exemples de la manière dont et le tracé des résidus peuvent constituer des outils utiles pour résoudre les difficultés qui se présentent.
Exemple 8.1.3.2 (suite)
elles peuvent et doivent être intégrées à une analyse approfondie des résidus, avant d’être validées en tant que données de synthèse. À titre d’exemple, considérons une équation de régression en et . Un programme de régression linéaire multiple peut être utilisé pour produire l’équation de régression suivante :
8.1.3.3
(Il faut noter que les valeurs de , et de l’équation 8.1.3.3 diffèrent légèrement des valeurs de l’équation 8.1.3.2. En effet, l’équation 8.1.3.3 n’a pas été obtenue
Les résidus issus de l’équation 8.1.3.3 peuvent être calculés et représentés de différentes manières potentiellement utiles. La figure 8.1.3.2 présente un graphique normal des résidus et trois autres graphiques des résidus en fonction de, et , respectivement. Les graphiques de la figure 8.1.3.2 n’apportent pas d’information très significative, sauf peut-être que l’ensemble de données présente une valeur de inhabituellement élevée ainsi qu’une valeur de inhabituellement élevée (qui elle-même correspond à la valeur élevée de ). Toutefois, le tracé des résidus en fonction de présente une configuration curviligne « croissante-décroissante-croissante » permettant de suggérer l’ajout d’un terme en à l’équation de régression 8.1.3.3.
.
8.1.3.4
avec et des résidus présentant une tendance encore moins marquée que ceux de l’équation de régression 8.1.3.3. Et on remarquera que le signe d’une courbure identifié sur le graphique des résidus en fonction de pour l’équation 8.1.3.3 n’apparaît pas sur le graphique équivalent pour l’équation 8.1.3.4. Il est intéressant de noter, à travers cet exemple, que l’équation de régression 8.1.3.4 présente une meilleure valeur que l’équation de régression 8.1.3.2, malgré le fait que l’équation 8.1.3.2 implique la variable de processus width= »546″ height= »454″ /> Figure 8.1.3.2 Plots of residuals from a two-variable equation fit to the stack loss data ( yˆ =−42.00 − .78×1 + .57×2 )[/caption] . Equation (8.1.3.4) is somewhat more complicated than equation (8.1.3.3). But because it still really only involves two different input [latex][/latex]x" class="latex mathjax"></div> </div> <div>.</div> <div><img class="wp-image-450 size-full" src="https://ecampusontario.pressbooks.pub/app/uploads/sites/4023/2024/02/120_1.jpg" alt="" width="546" height="454" /> Figure 8.1.3.2 Plots of residuals from a two-variable equation fit to the stack loss data ( yˆ =−42.00 − .78x1 + .57x2 )et qu’elle élimine également la légère tendance observée sur le graphique des résidus de l’équation 8.1.3.3 en fonction de , elle semble être un choix intéressant pour présenter une synthèse des données sur les pertes dans la cheminée. La figure 8.1.3.3 présente un nuage de points 3D des valeurs x1 et x2 issues de l’équation de régression 8.1.3.4. La figure 8.1.3.4 présente une vue 2D de la surface d’ajustement définie par l’équation 8.1.3.4. La légère courbure du tracé résulte du terme en qui apparaît dans l’équation 8.1.3.4. Étant donné que varie entre 50 et 62 et varie entre 17 et 24 pour la majorité des données, le graphique démontre que sur ces plages de valeurs, semble influencer les pertes dans la cheminée davantage que . Cette conclusion est cohérente avec la réflexion menée autour du tableau 8.1.3.2.
.