6.1.2 Modèle multi-échantillons (normal) à un facteur, valeurs ajustées et résidus

C. Bassim et Bryan Lee

6.1.2 Modèle multi-échantillons (normal) à un facteur, valeurs ajustées et résidus

Hypothèses de modèle normal à un facteur

La partie 5 a beaucoup mis l’accent sur le fait que, pour faire des inférences relatives à un ou deux échantillons, il faut adopter un modèle de génération de données qui soit à la fois plausible et gérable. Il en va de même pour le cas présent, et les méthodes d’inférence standard pour études multi-échantillons non structurées reposent sur une extension naturelle du modèle utilisé à la section 5.3 pour comparer les moyennes de deux petits échantillons. Aux fins de la présente discussion, on supposera que les $r$ échantillons, de tailles respectives $n_, n_, \ldots, n_{r}$ sont indépendants et suivent des distributions normales, avec une variance commune de $\sigma^$ . Tout comme dans la section 5.3, où la version $r = 2$ de ce modèle à un facteur (contrairement aux modèles à plusieurs facteurs) a amené des méthodes d’inférence pratiques pour $\mu_{1}-\mu_{2}$ , cette version générale permettra d’utiliser de nombreuses méthodes d’inférence pratiques pour les études utilisant $r$ échantillons. La figure 6.1.2.1 présente plusieurs distributions normales différentes ayant le même écart-type. Essentiellement, elle représente la source des réponses mesurées lorsque l’on applique les méthodes de ce chapitre.

: Figure 6.1.2.1 Distributions normales ayant le même écart-type

.

Outre la traduction en mots du modèle à un facteur et la représentation graphique de la figure 6.1.2.1, une traduction du modèle en symboles peut être utile. La présente section et les trois suivantes utilisent la notation

.

$y_{i j}=\text { la } j^e \text { observation dans l’échantillon } i$

.

Le modèle d’équation utilisée pour spécifier le modèle à un facteur est alors :

.

6.1.2.1 Énoncé du modèle à un facteur en symboles

$y_{i j}=\mu_i+\epsilon_{i j}$

.

où $\mu_{i}$ est la $i$ ^e moyenne sous-jacente et les quantités $\epsilon_, \epsilon_, \ldots, \epsilon_{1 n_}, \epsilon_, \epsilon_, \ldots$ , $\epsilon_{2 n_}, \ldots, \epsilon_{r 1}, \epsilon_{r 2}, \ldots, \epsilon_{r n_{r}}$ sont des variables aléatoires normales indépendantes de moyenne 0 et de variance $\sigma^$ . (Ici, les moyennes $\mu_, \mu_, \ldots, \mu_{r}$ et la variance $\sigma^$ sont typiquement des paramètres inconnus.)

.

L’équation 6.1.2.1 présente exactement ce que véhiculent la figure 6.1.2.1 et la traduction en mots des hypothèses à un facteur : elle indique qu’une donnée de l’échantillon $i$ se compose de la moyenne sous-jacente correspondante, à laquelle s’ajoute le bruit aléatoire suivant :

.

$\epsilon_{i j}=y_{i j}-\mu_{i}$

.

Il s’agit de la contrepartie théorique d’une notion empirique que nous aborderons plus tard, lorsque nous parlerons des moindres carrés dans un contexte de droite de régression. Il sera alors pertinent de décomposer les données en valeurs ajustées et en résidus correspondants.

.

Dans le cas présent, étant donné qu’on écarte volontairement toute structure reliant les $r$ échantillons, il peut être difficile de savoir comment appliquer les notions de valeurs ajustées et de résidus. Toutefois, il est probable que

.

$\hat{y}_{i j}=\text { la valeur ajustée correspondant à } y_{i j}$

.

corresponde en contexte à la moyenne du $i$ ^e échantillon

.

i^e moyenne d’échantillon $\bar{y}_{i}=\frac{n_{i}} \sum_{j=1}^{n_{i}} y_{i j}$

Soit :

.

6.1.2.2 Valeurs ajustées pour le modèle à un facteur

$\hat{y}_{i j}=\bar{y}_{i}$

.

À la lumière de l’équation 6.1.2.2 qui fournit les valeurs ajustées d’une étude à $r$ échantillons, le schéma établi indique que les résidus sont les différences entre valeurs observées et moyennes d’échantillon. Par conséquent, avec :

.

$e_{i j}=\text { le résidu correspondant à } y_{i j}$

.

on obtient :

.

6.1.2.3 Résidus pour modèle à un facteur

$e_{i j}=y_{i j}-\hat{y}_{i j}=y_{i j}-\bar{y}_{i}$

.

En réorganisant l’équation 6.1.2.3, on obtient

.

6.1.2.4 $y_{i j}=\hat{y}_{i j}+e_{i j}=\bar{y}_{i}+e_{i j}$

.

qui est la contrepartie empirique de l’énoncé théorique 6.1.2.1. En réalité, en combinant les équations 6.1.2.1 et 6.1.2.4, on obtient

.

6.1.2.5 $y_{i j}=\mu_i+\epsilon_{i j}=\bar{y}_i+e_{i j}$

.

Voici un exemple spécifique de schéma de pensée que l’on retrouve dans toutes les méthodes d’analyse courantes fondées sur la distribution normale pour les études multi-échantillons. Traduite en mots, l’équation (6.1.2.5) donnerait :

.

6.1.2.6 Observation $=$ réponse déterministe + bruit $=$ valeur ajustée + résidu

.

L’équation 6.1.2.6 est un paradigme présentant une approche unifiée permettant d’aborder la majorité des méthodes d’analyse présentées dans le reste de cet ouvrage.

.

Les décompositions 6.1.2.5 et 6.1.2.6 suggèrent que :

.

1. Les valeurs ajustées $\left(\hat{y}_{i j}=\bar{y}_{i}\right)$ sont censées représenter approximativement la part déterministe de la réponse du système $\left(\mu_{i}\right)$ .

.

2. Les résidus $\left(e_{i j}\right)$ sont donc censés représenter approximativement le bruit correspondant dans la réponse $\left(\epsilon_{i j}\right)$ .

.

Le fait que les termes $\epsilon_{i j}$ de l’équation 6.1.2.1 sont supposés être des variables aléatoires normales indépendantes et identiquement distribuées (iid) $\left(0, \sigma^\right)$ laisse alors supposer que les $e_{i j}$ devraient au moins à peu près ressembler à un échantillon aléatoire suivant une distribution normale.

.

Le tracé normal d’un ensemble complet de résidus est donc un moyen de vérifier la pertinence du modèle à un facteur. Pour étudier la justesse des hypothèses du modèle, on peut aussi regarder les tracés de résidus en fonction : 1) des valeurs ajustées; 2) de l’ordre d’observation; ou 3) de toute autre variable pouvant se révéler intéressante, en espérant ne voir que des dispersions aléatoires.

.

Ces types de tracés combinant les résidus de tous les $r$ échantillons sont souvent très utiles en pratique. Si $r$ est très grand, les contraintes budgétaires concernant le coût total de la collecte de données restreignent souvent la taille $n_, n_, \ldots, n_{r}$ des échantillons à être relativement petite. Cela rend vaine toute étude des hypothèses du modèle de distribution normale de variance unique à l’aide (par exemple) de tracés normaux, échantillon par échantillon. (Évidemment, quand tous les $n_, n_, \ldots, n_{r}$ sont de taille décente, l’approche échantillon par échantillon peut être efficace.)

.

Exemple 6.1.2.1 (suite)

Revenons à notre étude sur la résistance du béton et étudions la pertinence du modèle 6.1.2.1 dans ce cas. Commençons par observer la figure 6.1.1.1 Comme on a pu le remarquer plus haut, elle donne visuellement l’impression qu’au moins la partie « de même variance » des hypothèses du modèle à un facteur est plausible. Il est ensuite logique de calculer quelques statistiques synthétiques et de les examiner, notamment les écarts-types des échantillons. Le tableau 6.1.2.1 présente les tailles, moyennes et écarts-types des échantillons d’après les données du tableau 6.1.1.1.

.

Au premier abord, il peut sembler étrange que, dans ce tableau, $s_$ soit plus de trois fois plus grand que $s_$ . Mais les échantillons sont si petits ( $r=8$ échantillons de taille 3 suivant une distribution normale) que ce n’est pas si inhabituel de voir un rapport de l’ordre de 3,2 entre le plus grand et le plus petit écart-type. À noter que d’après les tables $F$ (table A1.5), même si on avait seulement deux écarts-types seulement sont impliqués (plutôt que huit), un rapport de variances de $(965,6 / 302,5)^ \approx 10,2$ donnerait, pour les échantillons de taille 3, une valeur $p$ située entre 0,10 et 0,20 pour le test de l’hypothèse nulle de variances égales, avec une hypothèse alternative bilatérale. Les écarts-types des échantillons du tableau 6.1.2.1 n’indiquent pas foncièrement que le modèle à un facteur n’est pas adapté.

.

Les échantillons étant trop petits, c’est peine perdu que de tenter de conclure quoi que ce soit d’utile sur huit tracés normaux distincts. Il est toutefois possible de tirer quelques informations en calculant et en traçant l’ensemble des $8 \times 3=24$ résidus. Le tableau 6.1.2.2 présente certains calculs nécessaires pour obtenir les résidus des données du tableau 6.1.1.1 (en utilisant les valeurs ajustées figurant dans le tableau 6.1.2.1 en tant que moyennes d’échantillons) sont présentés dans. Les figures 6.1.2.2 et 6.1.2.3 représentent respectivement un tracé de résidus en fonction de $y\left(e_{i j}\right.$ en fonction de $\bar{y}_{i j}$ et un tracé normal des 24 résidus.

.

La figure 6.1.2.2 n’indique pas que σ semble dépendre de µ (ce qui violerait la restriction de « variance constante »). Le tracé de la figure 6.1.2.3 est plutôt linéaire, ne présentant ainsi aucun obstacle clair quant à l’hypothèse d’une distribution normale. Dans l’ensemble, après examen des données brutes et des résidus, l’analyse des données du tableau 6.1.1.1 sur la base du modèle 6.1.2.1 semble parfaitement appropriée.

.

Tableau 6.1.2.1

.

Tableau 6.1.2.2

Figure 6.1.2.2 Tracé des résidus en fonction de la réponse ajustée pour la résistance à la compression

Figure 6.1.2.3 Tracé normal des résidus pour la résistance à la compression

.

Exemple 6.1.2.2 Test sur les ressorts (suite)

Les données expérimentales sur les ressorts peuvent également être analysées en tenant compte de l’utilisation potentielle du modèle normal à un facteur 6.1.1.1. Les figures 6.1.1.2 et 6.1.1.3 indiquent des variabilités comparables pour les constantes de ressort expérimentales, pour les r = 3 types de ressorts différents. La valeur élevée du ressort de type 1 suscite le doute concernant cette opinion et la description de « distribution normale » des constantes expérimentales de type 1 (en raison de la position de cette valeur aberrante sur le diagramme en boîtes). Le tableau 6.1.2.3 présente des statistiques synthétiques de ces échantillons.

.

Sans cette valeur extrême de 2,30, l’écart-type du premier échantillon serait 0,068, ce qui est totalement en adéquation avec ceux des autres échantillons. Mais même le rapport entre la plus grande et la plus petite variance d’échantillons (à savoir $\left.(0,134 / 0,064)^=4,38\right)$ ne suffit pas pour abandonner la description de modèle à un facteur des constantes de ressort. (On constate dans les tables $F$ pour $v_=6$ et $v_=5$ que 4,38 se trouve entre les quantiles 0,9 et 0,95 de la distribution $F_{6,5}$ . Par conséquent, même s’il y avait seulement deux échantillons et non trois, un rapport de variance de 4,38 donnerait une valeur $p$ située entre 0,1 et 0,2 pour le test (bilatéral) d’égalité des variances.) Avant de laisser la constante empirique du ressort de type 1 de 2,30 mener à l’abandon du très utile modèle 6.1.2.1, il est judicieux de regarder ce qui se passe d’un peu plus près.

.

Les tailles d’échantillon $n_=7$ et $n_=n_=6$ sont suffisamment grandes pour qu’il soit pertinent d’observer les tracés normaux des données constantes des ressorts échantillon par échantillon. La figure 6.1.2.4 présente ces tracés, réalisés sur les mêmes axes. De plus, l’utilisation des valeurs ajustées $\left(\bar{y}_{i}\right)$ du tableau 6.1.2.3, dont les données originales proviennent du tableau 6.1.1.2, produit 19 résidus, comme l’illustre en partie le tableau 6.1.2.4. Les figures 6.1.2.5 et 6.1.2.6 montrent ensuite respectivement un tracé de résidus en fonction des réponses ajustées, et un tracé normal de l’ensemble des 19 résidus.

.

Mais les figures 6.1.2.5 et 6.1.2.6 attirent elles aussi l’attention sur la constante empirique de ressort de type 1 la plus élevée. En comparaison avec les autres valeurs mesurées, 2,30 est tout simplement une valeur trop élevée (et produit ainsi un résidu trop important par rapport aux autres) pour qu’on puisse réellement appliquer le modèle 6.1.2.1 aux données des constantes de ressort. Hormis si, en vérifiant les fiches techniques originales, on découvrait que la valeur 2,30 était une grossière erreur de calcul ou de mesure (ce qui pourrait soit être corrigé, soit justifier d’omettre cette valeur), il semble que l’utilisation du modèle 6.1.2.1 avec les r = 3 types de ressorts pourrait produire des inférences aux propriétés réelles (et inconnues) assez différentes de leurs propriétés nominales.

.
On peut évidemment se limiter à étudier les ressorts de type 2 et 3. Il n’y a rien dans les deuxième et troisième échantillons qui rende le modèle de « distributions normales de même variance » indéfendable pour ces deux types de ressorts. Mais le schéma de variation des ressorts de type 1 semble être clairement différent de celui des ressorts de types 2 et 3, et ce modèle à un facteur n’est donc pas adéquat si l’on tient compte des trois types.

Tableau 6.1.2.3 Statistiques synthétiques des
constantes de ressort empiriques

Figure 6.1.2.4 Tracés normaux des constantes de ressort empiriques pour trois types de ressorts

Table 6.1.2.4 Exemple de calculs de résidus dans l’étude des constantes des ressorts

Figure 6.1.2.5 Tracé des résidus en fonction des réponses ajustées pour les constantes de ressort empiriques

Figure 6.1.2.6 Tracé normal des résidus des constantes de ressort

6.1.2 Modèle multi-échantillons (normal) à un facteur, valeurs ajustées et résidus

Hypothèses de modèle normal à un facteur

Licence

Partagez ce livre