7.2.3 Inférence pour la moyenne de la réponse d’un système pour une valeur particulière de x

Au chapitre 6, nous avons abordé le problème de l’estimation de la moyenne de y avec les niveaux du ou des facteurs considérés. À présent, le problème analogue est celui de l’estimation de la réponse moyenne pour une valeur fixée de la variable du système x,

7.2.3.1                                                      \mu_{y \mid x}=\beta_0+\beta_1 x

L’approximation naturelle (et basée sur des données) de la moyenne dans l’équation 7.2.3.1 est la valeur y correspondante tirée de la droite des moindres carrés. La notation

7.2.3.2  Estimateur de \mu_{y \mid x}=\beta_0+\beta_1 x

 

\hat{y}=b_0+b_1 x

 

sera utilisée pour cette valeur sur les droites des moindres carrés. (Et ce, malgré le fait que la valeur de l’équation 7.2.3.2 peut ne pas être une valeur ajustée au sens où cette expression a été le plus souvent utilisée jusqu’à présent. Il n’est pas nécessaire que x soit égal à x_1, x_2, \ldots, x_n pour que les expressions 7.2.3.1 et 7.2.3.2 soient valables.) Le modèle de régression linéaire simple (équation 7.2.1.2) donne des propriétés de distribution simples pour \hat{y}, qui mènent à des méthodes d’inférence pour \mu_{y \mid x}.

Selon le modèle 7.2.1.2, \hat{y} suit une distribution normale avec

E (\hat{y})=\mu_{y \mid x}=\beta_0+\beta_1 x

et

7.2.3.3                                        \operatorname{Var(\hat{y})}=\sigma^2\left(\frac{ 1}{n}+\frac{(x-\bar{x})^2}{\sum(x-\bar{x})^2}\right)

(Dans l’expression 7.2.3.3, on a un peu abusé de la notation. Les indices i de la somme dans \sum(x-\bar{x})^2 ont été supprimés. Cette sommation porte sur les n valeurs x_i de l’ensemble de données original. D’autre part, dans le terme (x-\bar{x})^2 du numérateur de l’expression 7.2.3.3, le x considéré n’est pas nécessairement égal à l’un des x_1, x_2, \ldots, x_n. Il s’agit plutôt de la valeur de la variable du système à laquelle la réponse moyenne doit être estimée.) Ainsi,

Z=\frac{\hat{y}-\mu_{y \mid x}}{\sigma \sqrt{\frac{ 1}{n}+\frac{(x-\bar{x})^2}{\sum(x-\bar{x})^2}}}

suit une distribution normale standard, ce qui implique que

7.2.3.4                                                T=\frac{\hat{y}-\mu_{y \mid x}}{s_{\mathrm{LF}} \sqrt{\frac{1 }{n}+\frac{(x-\bar{x})^2}{\sum(x-\bar{x})^2}}}

suit une distribution t_{n-2}. Les arguments standard de la partie 5 appliqués à l’expression 7.2.3.4 montrent alors que

7.2.3.5                                                \mathrm{H}_0: \mu_{y \mid x}=\#

peut être testée à l’aide de la statistique de test (aussi appelée variable de décision)

7.2.3.6  Statistique de test pour \mathrm{H}_0: \mu_{y \mid x}=\#

 

T=\frac{\hat{y}-\#}{s_{\mathrm{LF}} \sqrt{\frac{ 1}{n}+\frac{(x-\bar{x})^2}{\sum(x-\bar{x})^2}}}

 

et d’une distribution de référence t_{n-2}. De plus, dans le cadre du modèle de régression linéaire simple
(équation 7.2.1.2), un intervalle de confidence individuel bilatéral pour \mu_{y \mid x} peut être établi avec les bornes suivantes :

7.2.3.7 Limites de confiance pour la réponse moyenne, \mu_{y \mid x}=\beta_0+\beta_1 x

\hat{y} \pm t s_{\mathrm{LF}} \sqrt{\frac{ 1}{n}+\frac{(x-\bar{x})^2}{\sum(x-\bar{x})^2}}

 

où le niveau de confiance associé correspond à la probabilité assignée à l’intervalle entre -t et t dans la distribution t_(n-2). Un intervalle de confiance unilatéral s’obtient de la manière habituelle, en utilisant une seule borne dans l’équation 7.2.3.7.

Exemple 7.2.3.1 (suite)

Revenons à l’étude de la pression et de la densité. Établissons des intervalles de confidence individuels à 95 % pour les densités moyennes des cylindres obtenus d’abord à 4 000 psi, puis à 5 000 psi.

En commençant avec x = 4 000 psi, l’estimation correspondante de la densité moyenne est la suivante :

\hat{y}=2,375+0,000048 \overline{ 6}(4 000)=2,5697 \mathrm{~g} / \mathrm{cc}

De plus, d’après l’équation 7.2.3.7 et le fait que le quantile 0,975 de la distribution t_{ 13} vaut 2,160, une précision de plus ou moins

2,160(0,0199) \sqrt{\frac{1 }{ 15}+\frac{(4 000-6 000)^2}{120 000 000}}=0,0136 \mathrm{~g} / \mathrm{cc}

peut être associée à la valeur de 2,5697 g/cc. Autrement dit, les bornes d’un intervalle de confidence bilatéral à 95 % pour la densité moyenne dans la condition de 4 000 psi sont les suivantes :

2,5561 \mathrm{~g} / \mathrm{cc} \text { et } 2,5833 \mathrm{~g} / \mathrm{cc}

À x = 5 000 psi, l’estimation correspondante de la densité moyenne est la suivante :

\hat{y}=2,375+0,000048 \overline{ 6}(5 000)=2,6183 \mathrm{~g} / \mathrm{cc}

D’après l’équation 7.2.3.7, une précision de plus ou moins

2,160(0,0199) \sqrt{\frac{ 1}{ 15}+\frac{(5 000-6 000)^2}{120 000 000}}=0,0118 \mathrm{~g} / \mathrm{cc}

peut être associée à la valeur de 2,6183 g/cc. Autrement dit, les bornes d’un intervalle de confidence bilatéral à 95 % pour la densité moyenne dans la condition de 5 000 psi sont les suivantes :

2,6065 \mathrm{~g} / \mathrm{cc} \text { et } 2,6301 \mathrm{~g} / \mathrm{cc}

Il convient de comparer les valeurs plus ou moins des deux intervalles de confidence trouvés. L’intervalle pour x = 5 000 psi est plus court et donc plus parlant que l’intervalle pour x = 4 000 psi. L’origine de cette divergence devrait être claire, du moins après examen de l’équation 7.2.3.7. Selon les données de l’étude,
\bar{x} = 6 000 psi. x = 5 000 psi est plus proche de \bar{x} que x = 4 000 psi. Ainsi, (x-\bar{x})^2 (et donc la longueur de l’intervalle) est plus petit pour x = 5 000 psi que pour x = 4 000 psi.

Le phénomène observé dans l’exemple précédent, à savoir que la longueur d’un intervalle de confidence pour \mu_{y \mid x} augmente à mesure que l’on s’éloigne de \bar{x}, est important.  De plus, il a une signification intuitivement plausible pour la planification d’expériences lors desquelles on s’attend à une relation approximativement linéaire entre y et x, où x est une variable contrôlée. S’il y a un intervalle de valeurs de x sur lequel on veut obtenir une bonne précision dans l’estimation des réponses moyennes, il est logique de centrer les efforts de collecte de données sur cet intervalle.

Inférence pour l’ordonnée à l’origine \beta_0

Une bonne utilisation des équations 7.2.3.5, 7.2.3.6 et 7.2.3.7 donne des méthodes d’inférence pour le paramètre \beta_0 du modèle 7.2.1.2, l’ordonnée à l’origine de la relation linéaire (équation 7.2.3.1). Ainsi, en fixant x = 0 dans les équations 7.2.3.5, 7.2.3.6 et 7.2.3.7, on obtient des tests et des intervalles de confidence
pour \beta_0. Cependant, à moins que x = 0 soit une valeur réalisable pour la variable d’entrée
et que la région où la relation linéaire (équation 7.2.3.1) est une description raisonnable de la réalité physique comprenne x = 0, l’inférence pour \beta_0 seul est rarement d’un intérêt pratique.

Limites de confiance bilatérales simultanées pour toutes les moyennes \mu_{y \mid x}

7.2.3.8           Intervalle de confiance à 95 % de la réponse moyenne

\left(b_0+b_1 x\right) \pm \sqrt{2 f} s_{\mathrm{LF}} \sqrt{\frac{ 1}{n}+\frac{(x-\bar{x})^2}{\sum(x-\bar{x})^2}}

où, la confiance simultanée associée est la probabilité F_{2,n-2} attribuée à l’intervalle [0, f] (avec f positif).

Bien entendu, par « toutes les moyennes \mu_{y \mid x} », on veut en vérité dire « pour toutes les réponses moyennes dans un intervalle où le modèle de régression linéaire simple 7.2.1.2 est une description adéquate de la relation entre x et y ».  Comme c’est toujours le cas pour l’ajustement des courbes et des surfaces, il est risqué d’extrapoler en dehors de la plage de valeurs de x pour laquelle on dispose de données (et même, dans une certaine mesure, d’interpoler dans cette plage). Toute extrapolation doit être étayée par une expertise dans le domaine, afin de prouver qu’elle est justifiable.

Il peut être quelque peu difficile de saisir la signification d’une valeur de confiance simultanée applicable à tous les intervalles possibles de la forme 7.2.3.8. Jusqu’à présent, les niveaux de confiance étudiés l’ont été pour des ensembles finis d’intervalles. La meilleure façon de comprendre l’ensemble théoriquement infini d’intervalles donné par l’équation 7.2.3.8 est probablement de définir une région du plan (x, y) qu’on suppose contenir la droite \mu_{y \mid x}=\beta_0+\beta_1 x. La figure 7.2.3.1 représente une région de confiance typique obtenue par l’équation 7.2.3.8. Il y a une région indiquée autour de la droite des moindres carrés dont l’étendue verticale augmente avec la distance par rapport à \bar{x} et qui couvre, pour le niveau de confiance donné, la droite décrivant la relation entre x et \mu_{y \mid x}.

Figure 7.2.3.1 Région du plan (x, y) définie
par des intervalles de confiance simultanés pour toutes les valeurs de [latex]\mu_{y \mid x}[/latex].

Exemple 7.2.3.2 (suite)

Au moyen de l’équation 7.2.3.8, on peut trouver les intervalles de confiance simultanés à 95 % pour la densité moyenne des cylindres obtenus dans les cinq conditions d’expérimentation réelles.

Puisque il faut utiliser l’équation 7.2.3.8 avec v_1=2 et v_2=13 degrés de liberté, il convient d’utiliser des limites simultanées de la forme

\hat{y} \pm \sqrt{2(3,81)} s_{\mathrm{LF}} \sqrt{\frac{ 1}{ 15}+\frac{(x-6 000)^2}{120 000 000}}

Cela peut également se comparer à l’utilisation de la méthode P-R de la partie 6 pour le calcul simultané de l’intervalle de confiance à 95 %.

Tout d’abord, la formule (de la partie 6) montre qu’avec n − r = 15 − 5 = 10 degrés de liberté pour s_P et r = 5 conditions étudiées, les limites de confiance bilatérales simultanées à 95 % pour les cinq densités moyennes sont de la forme suivante :

\bar{y}_i \pm 3,103 \frac{s_{\mathrm{P}}}{\sqrt{n_i}}

En l’occurrence,

\bar{y}_i \pm 3,103 \frac{0,0206}{\sqrt}

soit

\bar{y}_i \pm 0,0369 \mathrm{~g} / \mathrm{cc}

Le tableau 7.2.3.1 présente les cinq intervalles résultant de l’utilisation de deux méthodes d’intervalles de confiance simultanées, ainsi que les intervalles individuels de l’équation 7.2.3.7.

Deux faits ressortent de ce tableau. Premièrement, les intervalles résultant de l’équation 7.2.3.8 sont un peu plus larges que les intervalles individuels correspondants donnés par l’équation 7.2.3.7. Deuxièmement, il est également clair que l’utilisation des hypothèses du modèle de régression linéaire simple plutôt que les hypothèses à un facteur plus générales de la partie 6 peut conduire à des intervalles de confidence simultanés plus courts et à des déductions techniques réelles plus nettes.

Tableau 7.2.3.1 Intervalles de confiance simultanés (et individuels) à 95 % pour la densité moyenne des cylindres

 

 

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.

Partagez ce livre