5.2.4 Inférence pour les variances de deux échantillons

C. Bassim et Bryan Lee

5.2.4 Inférence pour les variances de deux échantillons

Inférence pour le rapport de deux variances (basée sur des échantillons indépendants suivant une distribution normale)

Pour passer d’une inférence pour variance unique à une inférence permettant de comparer deux variances, il faut introduire une nouvelle famille de distributions de probabilité : les distributions F de Fisher-Snedecor.

DÉFINITION 5.2.4.1 Distribution F de Fisher-Snedecor

EXPRESSION 5.2.4.1

La distribution F $F$ de Fisher-Snedecor avec paramètres de degrés de liberté du numérateur et du dénominateur $v_1$ et $v_2$ désigne une distribution de probabilité continue ayant pour densité de probabilité

0 \\ 0 & \text { sinon }\end{cases}" title="f(x)= \begin{cases}\frac{\Gamma\left(\frac{v_1+v_2}\right)\left(\frac{v_1}{v_2}\right)^{v_1 / 2} x^{\left(v_1 / 2\right)-1}}{\Gamma\left(\frac{v_1}\right) \Gamma\left(\frac{v_2}\right)\left(1+\frac{v_1 x}{v_2}\right)^{\left(v_1+v_2\right) / 2}} & \text { pour } x>0 \\ 0 & \text { sinon }\end{cases}" class="latex mathjax">

Si une variable aléatoire présente une densité de probabilité donnée par la formule (5.2.4.1), on dit qu’elle a une distribution $F_{v_1, v_2}$ .

Comme le montre la Figure 5.2.4.1, les distributions F de Fisher-Snedecor sont des distributions à forte asymétrie droite, dont le maximum se situe à un argument légèrement inférieur à 1. Globalement, plus les valeurs $v_1$ et $v_2$ sont basses, plus la distribution F de Fisher-Snedecor concernée est asymétrique et étalée.

Utilisation des tables de distribution F (de Fisher-Snedecor), Tableau A1.5Utiliser directement la formule (5.2.4.1) pour trouver des probabilités pour la distribution $F$ nécessite d’employer des méthodes d’intégration numérique. Pour appliquer la distribution $F$ en inférence statistique, on utilise plutôt soit un logiciel de statistiques, soit des tables très abrégées de quantiles de distribution $F$ . Les tableaux A1.5 en annexe sont des tables de quantiles $F$ . Ils présentent, pour une valeur de $p$ donnée, les quantiles $p$ de la distribution $F$ pour différentes combinaisons de $v_$ (le degré de liberté du numérateur) et $v_$ (le degré de liberté du dénominateur). Les valeurs de $v_$ sont données dans l’en-tête de la table, et les valeurs de $v_$ , dans la colonne de gauche.

Les tableaux A1.5 ne donnent que les quantiles $p$ pour $p$ supérieur à 0,5, mais les quantiles de distribution $F$ pour $p$ inférieur à 0,5 sont souvent également utiles. Plutôt que de créer des tables pour ces valeurs, la pratique la plus courante est d’utiliser une astuce de calcul. En effet, le rapport entre les quantiles $F_{v_, v_}$ et $F_{v_, v_}$ permet de déterminer les quantiles pour de faibles $p$ . Soit $Q_{v_, v_}$ la fonction quantile $F_{v_, v_}$ et $Q_{v_, v_}$ la fonction quantile pour la distribution $F_{v_, v_}$ , alors

EXPRESSION 5.2.4.2 Rapport entre quantiles $F_{v_, v_}$ et $F_{v_, v_}$

$Q_{v_, v_}(p)=\frac{Q_{v_, v_}(1-p)}$

L’encadré (5.2.4.2) indique qu’il est possible d’obtenir un point de pourcentage de distribution inférieur en prenant l’inverse d’un point de pourcentage de distribution supérieur correspondant, en inversant les degrés de liberté.

Figure 5.2.4.1 Quatre densités de probabilité F différentes

Exemple 5.2.4.1 Utilisation des tables de quantiles de distribution

Supposons que $V$ soit une variable aléatoire $F_{3,5}$ . Cherchons les quantiles .95 et .01 de la distribution de $V$ , puis regardons ce que le tableau A1.5 révèle sur " title="P[V>" class="latex mathjax"> 4,0] et <img src="https://ecampusontario.pressbooks.pub/app/uploads/sites/4171/2024/03/109e3ebc4e9893167fd000040c2f0f7b.png" alt="P[V<0,3]" title="P[V.

En consultant directement la table des quantiles pour $p=0,95$ , colonne $v_=3$ , ligne $v_=5$ , on trouve dans un premier temps le nombre 5,41. Autrement dit, $Q(0,95)=5,41$ , ce qui équivaut à dire que <img src="https://ecampusontario.pressbooks.pub/app/uploads/sites/4171/2024/03/e87e037cb2d9dc42f354bdabcc0770e6.png" alt="P[V<5,41]=0,95" title="P[V.

Pour trouver le quantile $p=0,01$ de la distribution $F_{3,5}$ , il faut utiliser l’expression (5.2.4.2), soit :

$Q_{3,5}(0,01)=\frac{Q_{5,3}(0,99)}$

de sorte qu’en utilisant la colonne $v_=5$ et la ligne $v_=3$ de la table de quantiles $F 0,99$ , on obtient :

$Q_{3,5}(0,01)=\frac{28,24}=0,04$

En considérant ensuite que 4,0]" title="P[V>4,0]" class="latex mathjax">, on constate (en utilisant la colonne [/latex]v_{1}=3[/latex] et la ligne $v_=5$ du tableau A1.5) que 4,0 se situe entre les quantiles 0,90 et 0,95 de la distribution $F_{3,5}$ . C’est à dire que

0,90<P[V $\leq$ 4.0]<0,95

de sorte que

0,05<P[V>4,0]<0,10

Enfin, si l’on considère que <img src="https://ecampusontario.pressbooks.pub/app/uploads/sites/4171/2024/03/109e3ebc4e9893167fd000040c2f0f7b.png" alt="P[V<0,3]" title="P[V, notons qu’aucune des entrées des tableaux A1.5 n’est inférieure à 1,00. Ainsi, pour placer la valeur 3 dans la distribution $F_{3,5}$ , il faut localiser sa réciproque, 3,33 ( $=1 / 0,3$ ), dans la distribution $F_{5,3}$ , puis utiliser l’expression (5.2.4.2). En utilisant les colonnes $v_=5$ et les lignes $v_=3$ des tableaux A1.5, on constate alors que 3,33 se situe entre les quantiles 0,75 et 0,90 de la distribution $F_{5,3}$ . Donc d’après l’expression (5.2.4.2), 0,3 se situe entre les quantiles 0,1 et 0,25 de la distribution $F_{3,5}$ , et

0,10<P[V<0,3]<0,25

Cet effort pour déterminer les faibles quantiles de distribution F est une conséquence des normes de création des tables, et non une particularité propres aux distributions F. Pour faciliter les choses et trouver les quantiles F plus simplement, il est notamment possible d’utiliser un logiciel de statistiques standard ou une calculatrice scientifique.

La distribution F est utilisée ici, car un fait de probabilité lie le comportement des rapports des variances d’échantillons indépendants (basés sur des échantillons suivant une distribution normale) aux variances $\sigma_^$ et $\sigma_^$ des distributions sous-jacentes. Autrement dit, lorsque $s_^$ et <img src="https://ecampusontario.pressbooks.pub/app/uploads/sites/4171/2024/03/4271702ef47127321ec8a369ddc787e9.png" alt="s_^[latex][/latex] proviennent d’échantillons indépendants suivant une distribution normale, la variable

5.2.4.3 [latex][/latex]F=\frac{s_^}{\sigma_^} \cdot \frac{\sigma_^}{s_^}" title="s_^[latex][/latex] proviennent d’échantillons indépendants suivant une distribution normale, la variable

5.2.4.3 [latex][/latex]F=\frac{s_^}{\sigma_^} \cdot \frac{\sigma_^}{s_^}" class="latex mathjax">

suit une distribution $F_{n_-1, n_-1}$ . ( $s_^$ a $n_-1$ degrés de liberté associés et figure dans le numérateur de cette expression, tandis que $s_^$ a $n_-1$ degrés de liberté associés et figure dans le dénominateur, motivant le langage introduit à la définition 5.2.4.1)

C’est exactement dont nous avons besoin pour produire des méthodes d’inférence formelles pour le rapport $\sigma_^ / \sigma_^$ . Il est par exemple possible de choisir L et U, les bons quantiles F, de sorte que la probabilité que la variable (5.2.4.3) se situe entre L et U corresponde au niveau de confiance souhaité. (L et U sont typiquement choisis de manière à « répartir le manque de confiance » entre les queues $F_{n_-1, n_-1}$ supérieure et inférieure.) Mais

L< $\frac{s_^}{\sigma_^} \cdot \frac{\sigma_^}{s_^}$ <U

équivaut algébriquement à

<img src="https://ecampusontario.pressbooks.pub/app/uploads/sites/4171/2024/03/3832fa902041ddfb0c0504d802139bb0.png" alt="\frac{U} \cdot \frac{s_^}{s_^}<\frac{\sigma_^}{\sigma_^}<\frac{L} \cdot \frac{s_^}{s_^}" title="\frac{U} \cdot \frac{s_^}{s_^}<\frac{\sigma_^}{\sigma_^}

Autrement dit, lorsqu’un mécanisme de génération de données peut être considéré comme fondamentalement équivalent à un échantillonnage aléatoire indépendant suivant deux distributions normales, l’intervalle de confiance bilatéral pour $\sigma_^ / \sigma_^$ a pour bornes

5.2.4.4 Limites de confiance de distribution normale pour $\sigma_^ / \sigma_^$

$\quad \frac{s_^}{U \cdot s_^} \quad \text { et } \quad \frac{s_^}{L \cdot s_^}$

où L et U (quantiles $F_{n_-1, n_-1}$ ) sont tels que la probabilité $F_{n_-1, n_-1}$ assignée à l’intervalle (L, U) correspond au niveau de confiance souhaité.

De plus, il y a une méthode de test d’hypothèse évidente pour $\sigma_^ / \sigma_^$ . Sous réserve des limites de modélisation nécessaires pour que la méthode d’intervalle de confiance s’applique,

5.2.4.5 $\mathrm{H}_{0}: \frac{\sigma_^}{\sigma_^}=\#$

peut être testée à l’aide de la statistique

5.2.4.6 Variable à tester suivant une distribution normale pour $\sigma_^ / \sigma_^$

$F=\frac{s_1^2 / s_2^2}{\#}$

et d’une distribution de référence $F_{n_-1, n_-1}$ . (Le choix de $\#=1$ dans les encadrés (5.2.4.5) et (5.2.4.6) correspond à une hypothèse nulle où les variances sont égales. C’est le seul choix communément utilisé en pratique.)

Valeurs P de test $H_{0}: \frac{\sigma_^}{\sigma_^}=\#$

Les valeurs $p$ pour les hypothèses alternatives unilatérales $\mathrm{H}_{\mathrm{a}}: \sigma_1^2 / \sigma_2^2$ < # et \#" title="\mathrm{H}_{\mathrm{a}}: \sigma_1^2 / \sigma_2^2>\#" class="latex mathjax"> sont (respectivement) les queues de distribution $F_{n_-1, n_-1}$ gauche et droite au-delà des valeurs observées de la variable à tester. Pour les hypothèses bilatérales alternatives $\mathrm{H}_{\mathrm{a}}: \sigma_^ / \sigma_^ \neq \#$ , la convention standard est de reporter deux fois la probabilité $F_{n_-1, n_-1}$ à droite de la fonction étudiée si 1" title="f>1" class="latex mathjax">, et de reporter deux fois la probabilité $F_{n_-1, n_-1}$ à gauche de la fonction $f$ étudiée si $f$ <1.

Exemple 5.2.4.2 Comparaison de l’uniformité des mesures d’indice de dureté de deux types d’acier

Condon, Smith et Woodford ont mené des essais de dureté sur des échantillons d’acier au carbone à $4 \%$ . Une partie de leurs données figurent dans le tableau 5.2.4.1, où sont représentées les mesures de dureté de Rockwell pour dix échantillons provenant d’un lot d’acier à traitement thermique et cinq échantillons provenant d’un lot d’acier laminé à froid.

Comparons l’uniformité des mesures de dureté pour ces deux types d’acier (plutôt que la dureté moyenne, comme on l’a fait au chapitre 5.2.3). La figure 5.2.4.2 présente les diagrammes de dispersion de chaque échantillon et suggère que la variabilité associée aux échantillons d’acier à traitement thermique est plus élevée que celle associée aux échantillons d’acier laminé à froid. Les deux tracés normaux de la Figure 5.2.4.3 ne démontrent aucun problème clair avec l’hypothèse que les variables suivent une distribution normale.

Tableau 5.2.4.1 Mesures de dureté de Rockwell pour échantillons de deux types d’acier

Traitement thermique

Laminage à froid

Figure 5.2.4.2 Diagrammes de dispersion présentant la dureté de l’acier à traitement thermique et de l’acier laminé à froid

Figure 5.2..4.3 Tracés de dureté normaux pour acier à traitement thermique et acier laminé à froid

Choisissons arbitrairement ensuite d’appeler condition numéro 1 le traitement thermique et condition numéro 2 le laminage à froid, on a $s_=7,52$ et $s_=3,52$ ; un test d’hypothèse d’égalité des variances en cinq étapes reposant sur la variable (5.2.4.6) se présente comme suit :

1. $]\mathrm{H}_{0}: \frac{\sigma_^}{\sigma_^}=1$

2. $\mathrm{H}_{\mathrm{a}}: \frac{\sigma_^}{\sigma_^} \neq 1$

(Si une raison matérielle justifie le choix d’une autre hypothèse unilatérale, les auteurs n’en ont pas connaissance.)

3. La variable à tester est la suivante :

$F=\frac{s_^}{s_^}$

.

La distribution de référence est la distribution $F_{9,4}$ , et $\mathrm{H}_{0}$ sera infirmée si la valeur observée de f est soit grande, soit petite.

.

4. Les échantillons donnent

.

$f=\frac{(7,52)^}{(3,52)^}=4,6$

.

5. Comme f est supérieure à 1, pour l’alternative bilatérale, la valeur p est la suivante :

.

$2 P\left[\text { une variable aléatoire } F_{9,4} \text { } \geq 4,6\right]$

.

D’après les tableaux A1.5, 4,6 se situe entre les quantiles 0,9 et 0,95 de la distribution $F_{9,4}$ , donc le niveau de signification étudié se situe entre 0,1 et 0,2. Il semble donc peu probable (bien que pas impossible) que le traitement thermique et le laminage à froid aient des variabilités égales.

.

Afin de préciser la taille relative des variabilités, les racines carrées des valeurs dans l’expression 5.2.4.6 peuvent être utilisées pour obtenir un intervalle de confiance bilatéral de 90 % pour le rapport $\sigma_ / \sigma_$ . Comme le quantile 0,95 de la distribution $F_{9,4}$ vaut 6,0 et que le quantile 0,95 de la distribution $F_{4,9}$ vaut 3,63, le quantile .05 de la distribution $F_{9,4}$ est $\frac{3,63}$ . Ainsi, l’intervalle de confiance de 90 % pour le rapport d’écarts-types $\sigma_ / \sigma_$ a pour bornes

.

$\sqrt{\frac{(7.52)^}{6,0(3,52)^}} \text { et } \sqrt{\frac{(7,52)^}{(1 / 3,63)(3,52)^}}$

.

En faisant le calcul, on obtient :

.

0,87 et 4,07

.

Le fait que l’intervalle (0,87, 4,07) couvre des valeurs à la fois inférieures et supérieures à 1 indique que les données ne permettent pas de déterminer précisément laquelle des deux variabilités est la plus élevée.

L’une des plus importantes applications en ingénierie des méthodes d’inférence représentées par ces expressions, c’est de pouvoir comparer la précision intrinsèque de diverses pièces d’équipement ou de diverses méthodes de fonctionnement d’une pièce d’équipement donnée.

Exemple 4.2.4.3 Comparaison de l’uniformité de fonctionnement de deux massicots

Abassi, Aﬁnson, Shezad et Yeo ont travaillé avec une entreprise de découpe de feuilles de papier à partir de rouleaux. L’uniformité de la longueur des feuilles est importante, car meilleure elle est, plus la longueur moyenne des feuilles peut se rapprocher de la valeur nominale sans générer de sous-dimensionnement, réduisant ainsi le gaspillage pour l’entreprise.
Les étudiant.e.s ont comparé l’uniformité des feuilles coupées à l’aide de deux massicots, l’un étant muni d’un frein manuel, et l’autre d’un frein automatique. Cette comparaison se base sur les écarts-types estimés de longueur de feuille coupée par les deux machines – précisément le genre de données qu’on utilise pour
poser le cadre des inférences formelles de cette section. Les étudiant.e.s ont estimé que $\sigma_{manual}$ / $\sigma_{automaticl}$ était de l’ordre de 1,5. Selon leurs calculs, il faudrait tout au plus deux ans pour que l’entreprise récupère les coûts requis pour équiper tous les massicots de freins automatiques.

Avertissement concernant les inférences pour variance

Si l’on veut faire preuve de rigueur, les méthodes de cette section ne s’appliquent qu’aux distributions normales. Il est pertinent de se demander à quel point cette condition est essentielle pour qu’on puisse recourir à ces méthodes d’inférence pour une ou deux variances. À la fin du module 5.2.3, nous avions mentionné que les méthodes pour les moyennes tiennent relativement la route en cas de violation modérée des hypothèses du module. Malheureusement, ce n’est pas le cas des méthodes pour les variances présentées ici.

Pour ces méthodes, si les données ne suivent pas une distribution normale, le niveau de confiance nominal et les valeurs p peuvent facilement induire en erreur. Par conséquent, il est essentiel d’examiner minutieusement les données (comme on l’a fait avec les tracés normaux dans les exemples) pour justifier l’utilisation des méthodes de la présente section. Les tracés normaux n’étant typiquement pas très révélateurs à moins que l’échantillon concerné ne soit de taille moyenne ou grande, les inférences formelles pour variances seront plus fiables si les échantillons (d’apparence normale) sont de taille moyenne ou grande.

L’importance de la distribution normale en matière de fonctionnement prévisible des méthodes de cette section n’est pas la seule raison de préférer des échantillons de grande taille pour les inférences pour variances. L’expérience révèle rapidement que même s’ils suivent une loi normale, les petits échantillons sont souvent inadéquats pour répondre aux questions pratiques sur les variances. Les intervalles de conﬁance F pour les variances et le rapport des variances de petits échantillons peuvent être tellement grands qu’ils n’ont guère d’utilité pratique. De fait, il faut généralement utiliser de grands échantillons pour résoudre les problèmes de variances dans le monde réel. Cet avis n’est pas une admission de défaut de ces méthodes; il s’agit simplement d’une mise en garde et d’une explication sur le fait que pour être véritablement parlantes, les variances nécessitent plus de données que les moyennes (par exemple).