6.3.3  Identité et tableau d’ANOVA à un facteur

La statistique de test de l’ANOVA est associée à une forte intuition quant à la répartition de la variabilité observée, en raison d’une identité algébrique énoncée ci-dessous sous la forme d’une proposition.
.
Proposition 6.3.3.1
.
Identité d’ANOVA à un facteur
.
Pour toute combinaison de n nombres y_{i j} :
.
6.3.3.1                     (n-1) s^2=\sum_{i=1}^{r} n_{i}\left(\bar{y}_{i}-\bar{y}\right)^2+(n-r) s_{\mathrm{P}}^2
.
ou, de manière équivalente :
.
Deuxième version de l’identité d’ANOVA à un facteur :
.
6.3.3.2                     \sum_{i, j}\left(y_{i j}-\bar{y}\right)^2=\sum_{i=1}^{r} n_{i}\left(\bar{y}_{i}-\bar{y}\right)^2+\sum_{i=1}^{r} \sum_{j=1}^{n_{i}}\left(y_{i j}-\bar{y}_{i}\right)^2

.

La proposition 6.3.3.1 permet de commencer à éclaircir le terme « analyse de variance ». Elle indique que la mesure globale de variabilité de la réponse y, à savoir
.
(n-1) s^2=\sum_{i, j}\left(y_{i j}-\bar{y}\right)^2
.
peut être divisée ou décomposée algébriquement en deux parties. La première,
.
\sum_{i=1}^{r} n_{i}\left(\bar{y}_{i}-\bar{y}\right)^2
.
peut être considérée comme une mesure de la variation entre les échantillons ou les « traitements », et l’autre,
.
(n-r) s_{\mathrm{P}}^2=\sum_{i=1}^{r} \sum_{j=1}^{n_{i}}\left(y_{i j}-\bar{y}_{i}\right)^2
.
mesure la variation intra-échantillon (il s’agit en réalité de la somme des carrés de l’erreur résiduelle). Dans la statistique F 6.3.2.3, conçue pour tester \mathrm{H}_{0}: \mu_1=\mu_2=\cdots=\mu_{r}, le numérateur se rapporte à la première des deux, et le dénominateur à la deuxième. Utiliser la statistique F de l’ANOVA revient presque à analyser la variabilité brute de y.
.
Reconnaissant leur importance dans le calcul de la statistique F de l’ANOVA à un facteur et leur utilité en tant que statistiques descriptives à part entière, on attribue généralement un nom spécifique et une abréviation aux trois sommes (des carrés) figurant dans les équations 6.3.3.1 et 6.3.3.2, énoncés ci-dessous sous forme de définition :
.

DÉFINITION 6.3.3.1 Somme totale des carrés SCTot

Dans une étude multi-échantillons, la somme des carrés des différences entre les valeurs des données brutes et la moyenne du grand échantillon, (n-1) s^2, est appelée somme totale des carrés et notée SCTot.

 

DÉFINITION 6.3.3.2 Somme des carrés des traitements SCTr

Dans une étude multi-échantillons non structurée, la somme \sum n_{i}\left(\bar{y}_{i}-\bar{y}\right)^2 est appelée somme des carrés des traitements et notée SCTr.

 

DÉFINITION 6.3.3.3 Somme des carrés d’erreur résiduelle SCE

Dans une étude multi-échantillons, la somme des carrés des résidus, \sum(y-\hat{y})^2 (qui équivaut à (n-r) s_{\mathrm{p}}^2 dans un cas non structuré) est appelée somme des carrés d’erreur résiduelle et notée SCE.

.

Dans la nouvelle notation présentée dans ces définitions, la proposition 6.3.3.1 énonce que dans un cadre multi-échantillons non structuré :

.
6.3.3.3  Troisième version de l’identité de l’ANOVA à un facteur
S C T o t=S C T r+S C E

.

Créer une table d’analyse de la variance permet d’une part de faciliter l’organisation du calcul de la statistique F de l’équation 6.3.2.3 et, d’autre part, de consolider et d’élargir l’intuition au sujet de la variance fournie par les équations 6.3.3.1, 6.3.3.2 et 6.3.3.3. Il existe de nombreuses formes de tables d’analyse de la variance correspondant à des analyses multi-échantillons diverses et variées. La plus judicieuse à utiliser dans le cas présent est celle représentée sous forme symbolique dans le tableau 6.3.3.1.
.
Les intitulés de colonnes du tableau 6.3.3.1 sont Source (de la variation), \underline{\text { Somme }} des \underline{\text { Carrés }} SS (de la source), degrés de liberté df (de la source), carré de la moyenne MS (de la source), et \underline{F} (pour le test d’hypothèse de la contribution de la source dans la variabilité globale observée). Dans la colonne Source du tableau, les entrées sont Traitements, Erreur et Total. Mais le terme « traitements » peut parfois être remplacé par « inter (échantillons) », et « Erreur » par « intra (échantillons) » ou « résiduel ». La somme des deux premières entrées de la colonne SC (SS) doit correspondre à la troisième, comme indiqué par l’équation 6.3.3.3. De même, la somme des degrés de liberté pour les traitements et l’erreur donne le nombre total de degrés de liberté, (n-1). À noter que les entrées de la colonne d f sont respectivement liées au numérateur et au dénominateur de la statistique de test dans l’équation 6.3.2.3. Les rapports entre les sommes des carrés et les degrés de liberté sont appelés carrés de moyennes; ici, le carré de la moyenne pour les traitements (MSTr) et le carré de la moyenne pour l’erreur (MSE). Dans le cas présent, il faut vérifier que M S E=s_{\mathrm{P}}^2 et que M S T r est le numérateur de la statistique F de l’équation 6.3.2.3. Le rapport apparaissant dans la colonne F est donc la valeur observée de F pour le test \mathrm{H}_{0}: \mu_1=\mu_2=\cdots=\mu_{r}.
.

Tableau 6.3.3.1 Forme générale du tableau d’analyse de la variance à un facteur (ANOVA)

Exemple 6.3.3.1 Étude sur la résistance du béton (suite)

Revenons encore une fois à l’étude de résistance du béton. En retournant voir les données brutes du tableau 6.1.1.1, on constate que \bar{y}=3 693,6, donc
.
\begin{aligned} \text { SCTot }= & (n-1) s^2 \\ = & (5 800-3 693,6)^2+(4 598-3 ,693,6)^2+(6 508-3 693,6)^2 \\ & +\cdots+(2 631-3 693,6)^2+(2 490-3 693,6)^2 \\ = & 52 \: 772 \: 190 \text{ psi}^2 \end{aligned}
.
En outre, comme dans la section 6.1.1.1, s_{\mathrm{P}}^2=338 \: 213,1 \text{ psi}^2 et n-r=16, on a donc :
.
S C E=(n-r) s_{\mathrm{P}}^2=5 \: 411 \: 410 \text{ psi}^2
.
Et d’après ce qu’on a pu voir précédemment dans la présente section :
.
S C T r=\sum_{i=1}^{r} n_{i}\left(\bar{y}_{i}-\bar{y}\right)^2=47 \: 360 \: 780
.
On insère ces résultats et les valeurs de degré de liberté adéquates dans la forme générale de la table d’analyse de la variance à un facteur, créant ainsi la table de l’étude de résistance à la compression du béton (tableau 6.3.3.2).
.
À noter que, comme promis par le principe d’identité d’ANOVA à un facteur, la somme des carrés des traitements et la somme des carrés de l’erreur résiduelle égalent la somme totale des carrés. De plus, le tableau 6.3.3.2 constitue une synthèse pratique du processus de test, permettant de trouver en un coup d’œil la valeur observée de F, les degrés de liberté et les valeurs de s_{\mathrm{p}}^2=M S E.

Tableau 6.3.3.2  Tableau d’analyse de la variance (ANOVA) à un facteur pour l’étude de résistance du béton

 

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.

Partagez ce livre