6.3.2 Test F de l’ANOVA à un facteur

C. Bassim et Bryan Lee

6.3.2 Test F de l’ANOVA à un facteur

La méthode standard de test de l’hypothèse 6.3.2.6

.

$\mathrm{H}_{0}: \mu_1=\mu_2=\cdots=\mu_{r}$

.

pour l’absence de différence entre $r$ moyennes s’opposant à l’hypothèse

$\mathrm{H}_{\mathrm{a}}: \operatorname{pas} \mathrm{H}_{0}$

.

est essentiellement basée sur la comparaison entre la mesure de la variabilité des moyennes d’échantillons et la variance d’échantillons pondérée, $s_{\mathrm{p}}^2$ . Certaines conventions de notation supplémentaires sont nécessaires pour pouvoir présenter pleinement cette méthode.

.

Dans la suite de cet ouvrage, il sera souvent plus pratique d’utiliser des notations globales pour les mesures de la partie 2 (moyennes et variances d’échantillons) appliquées aux données des études multi-échantillons, en laissant de côté le nombre total d’échantillons ( $r$ ). La lettre $n$ dénuée d’indice a déjà été utilisée pour remplacer $n_1+n_2+$ $\cdots+n_{r}$ , le nombre d’observations disponibles, en ignorant le nombre total d’échantillons ( $r$ ). Cette convention sera désormais expressément étendue aux statistiques calculées à partir des $n$ réponses. Pour plus de clarté, cela sera énoncé sous forme de définition.

.

DÉFINITION 6.3.2.1 Convention de notation pour les études multi-échantillons

Dans les études multi-échantillons, les symboles représentant des tailles ou des statistiques d’échantillons qui apparaîtront sans indice ni point seront considérées comme tenant compte de toutes les réponses disponibles, en combinant tous les échantillons.

.

Ainsi, $n$ représentera le nombre total de points de données (même dans une étude à $r$ échantillons), $\bar{y}$ la moyenne du grand échantillon de la réponse $y$ , et $s^2$ une variance du grand échantillon calculée en combinant tous les échantillons.

.

Pour les besoins présents (construire une variable pour tester l’hypothèse 6.3.1.6), il faut utiliser $\bar{y}$ , la moyenne du grand échantillon. Il est important de reconnaître que $\bar{y}$ et

.

6.3.2.1 Moyenne (non pondérée) des moyennes de $r$ échantillons

$\bar{y}_{.}=\frac{ 1}{r} \sum_{i=1}^{r} \bar{y}_{i}$

.

ne sont pas forcément identiques, à moins que tous les échantillons aient la même taille. En effet, lorsque la taille des échantillons varie, $\bar{y}$ est la moyenne arithmétique (non pondérée) des valeurs de données brutes $y_{i j}$ , et la moyenne pondérée des moyennes d’échantillons $\bar{y}_{i}$ . En contrepartie, $\bar{y}_.$ est la moyenne arithmétique (non pondérée) des moyennes d’échantillons $\bar{y}_{i}$ , et la moyenne pondérée des valeurs de données brutes $y_{i j}$ . Par exemple, dans le cas très simple où $r=2, n_1=2$ et $n_2=3$ ,

.

$\bar{y}=\frac{1 }{5 }\left(y_{ 11}+y_{ 12}+y_{ 21}+y_{ 22}+y_{ 23}\right)=\frac{ 2}{ 5} \bar{y}_1+\frac{3 }{ 5} \bar{y}_2$

.

alors que

.

$\bar{y}_.=\frac{ 1}{ 2}\left(\bar{y}_1+\bar{y}_2\right)=\frac{ 1}{4 } y_{ 11}+\frac{1 }{ 4} y_{ 12}+\frac{ 1}{ 6} y_{2 1}+\frac{ 1}{ 6} y_{ 22}+\frac{ 1}{ 6} y_{ 23}$

.

et qu’en général, $\bar{y}$ et $\bar{y}_.$ ne sont pas identiques.

.

D’après l’hypothèse 6.3.1.6 ( $\mu_1=\mu_2=\cdots=\mu_{r}, \bar{y}$ est une estimation naturelle de la moyenne commune. (Toutes les distributions sous-jacentes sont les mêmes; les données disponibles sont donc considérées, à juste titre, non pas comme $r$ échantillons différents, mais plutôt comme un échantillon unique de taille $n$ .) Les différences $\bar{y}_{i}-\bar{y}$ sont donc des indicateurs de différences potentielles parmi les $\mu_{i}$ . Il est pratique de résumer la taille de ces différences $\bar{y}_{i}-\bar{y}$ en prenant une sorte de somme de leurs carrés :

.

6.3.2.2 $\sum_{i=1}^{r} n_{i}\left(\bar{y}_{i}-\bar{y}\right)^2$

.

On peut considérer la statistique 6.3.2.2 soit comme une somme pondérée des quantités $\left(\bar{y}_{i}-\bar{y}\right)^2$ , soit comme une somme non pondérée, avec un terme de la somme pour chaque point de données brutes, donc $n_{i}$ termes $\left(\bar{y}_{i}-\bar{y}\right)^2$ . La quantité 6.3.2.2 est une mesure de la variation inter-échantillons des données. Pour un ensemble donné de tailles d’échantillons, plus cette quantité est grande, plus la variation entre les moyennes d’échantillons $\bar{y}_{i}$ est grande.

.

Pour construire une variable à tester pour l’hypothèse 6.3.1.6, il suffit de diviser la mesure 6.3.2.2 par $(r-1) s_{\mathrm{p}}^2$ . On obtient alors :

.

6.3.2.3 Statistique de test de l’ANOVA à un facteur pour l’égalité de $r$ moyennes

$F=\frac{\frac{ 1}{r-1} \sum_{i=1}^{r} n_{i}\left(\bar{y}_{i}-\bar{y}\right)^2}{s_{\mathrm{P}}^2}$

.

Le fait est que si $\mathrm{H}_{0}: \mu_1=\mu_2=\cdots=\mu_{r}$ est vraie, d’après les hypothèses du modèle à un facteur, cette statistique présente une distribution $F_{r-1, n-r}$ . L’hypothèse d’égalité de $r$ moyennes peut donc être testée à l’aide de l’équation 6.3.2.3 et d’une distribution $F_{r-1, n-r}$ de référence, où les grandes valeurs observées de $F$ permettent d’infirmer $\mathrm{H}_{0}$ et de confirmer $\mathrm{H}_{\mathrm{a}}$ : pas $\mathrm{H}_{0}$ .

.

Exemple 6.3.2.1 Étude sur la compression du béton (suite)

Reprenons l’exemple de l’étude de résistance à la compression du béton d’Armstrong, Babb et Campen. Nous avions $\bar{y}=3 693,6$ . et les 8 moyennes d’échantillons $\bar{y}_{i}$ présentent diffèrent de cette valeur par les écarts donnés dans le tableau 6.3.2.1.

.

Puis, étant donné que pour tout i, $n_{i}=3$ , dans cette situation :

.

$\begin{aligned} \sum_{i=1}^r n_i\left(\bar{y}_i-\bar{y}\right)^2= & 3(1 941,7)^2+3(2 059,7)^2+\cdots \\ & +3(-2 142,3)^2+3(-1 302,9)^2 \end{aligned}$

.

$=47 360 780(\mathrm{psi})^2$

.

Pour pouvoir utiliser ce chiffre pour juger de la signification statistique, on standardise à l’aide de l’équation 6.3.2.3 afin d’obtenir la valeur observée de la statistique de test :

.

$f=\frac{\frac{ 1}{8-1}(47 \: 360 \: 780)}{(581,6)^2}=20,0$

.

Il est très facile de vérifier dans les tables A1.5 (les tables F) que 20.0 est supérieur au quantile 0,999 de la distribution $F_{7,16}$ . On a donc :

.

<img src= »https://ecampusontario.pressbooks.pub/app/uploads/sites/4171/2024/03/e9b4dd4099f8c03b16055ccc210777db.png » alt= »\text {valeur p }=P\left[\text { une variable aléatoire } F_{7,16} \geq 20,0\right]<0,001″ title= »\text {valeur p }=P\left[\text { une variable aléatoire } F_{7,16} \geq 20,0\right]

.

Ainsi, les données permettent largement de prouver que $\mu_1, \mu_2, \ldots, \mu_8$ ne sont pas toutes égales.

Tableau 6.3.2.1 Moyennes d’échantillon et écarts par rapport à \bar{y} dans l’étude de la résistance du béton

.

Pour des raisons purement pédagogiques, le test de l’ANOVA à un facteur a été présenté après les méthodes d’inférence axées sur les intervalles dans les études à $r$ échantillons. Mais si elle doit être mise en pratique, la méthode de test d’hypothèse intervient typiquement chronologiquement avant l’estimation. En d’autres termes, le test de l’ANOVA peut permettre de déterminer en amont si les données disponibles conviennent pour différencier les moyennes de façon concluante, ou s’il faut plus de données.

6.3.2 Test F de l’ANOVA à un facteur

Licence

Partagez ce livre