2.2.2 Mesures de dispersion

Quantifier la variation d’un ensemble de données peut être aussi important que d’en mesurer sa position. Dans le secteur manufacturier, par exemple, si une caractéristique des pièces sortant d’une machine donnée est mesurée et consignée, la dispersion des données obtenues donne des informations sur la précision et la capacité intrinsèques de la machine. La position des données obtenues est souvent fonction de la configuration de la machine ou du réglage des boutons d’ajustement. Les réglages peuvent être modifiés assez facilement, mais l’amélioration de la précision intrinsèque de la machine nécessite généralement des dépenses d’investissement pour un nouvel équipement ou la remise en état d’un équipement existant.
Bien que nous n’avons pas insisté sur ce point dans le module 2.1, on peut utiliser l’écart interquartile, EI = Q(0,75) - Q(0,25) pour représenter la dispersion d’une distribution. L’écart interquartile mesure la répartition de la moitié centrale d’une distribution. Il est donc insensible à quelques valeurs extrêmes éventuelles. Une mesure apparentée est l’étendue, qui indique la dispersion de l’ensemble de la distribution.

DÉFINITION 2.2.2.1.  Étendue

L’étendue d’un ensemble de données constitué de valeurs ordonnées x_1 \leq x_2 \leq \cdots \leq x_n est

E = x_{n} - x_

 

Notez l’utilisation des mots ici. Le mot étendue peut être utilisé comme verbe pour dire « Les données s’étendent de 3 à 21 ». Mais pour utiliser le mot comme un substantif, on dit « L’étendue est de (21 - 3) = 18 ». Étant donné que l’étendue ne dépend que des valeurs du plus petit point et du plus grand point d’un ensemble de données, elle est nécessairement très sensible aux valeurs extrêmes (ou aberrantes). Parce qu’elle est facile à calculer, elle a longtemps été populaire dans les milieux industriels, notamment en tant qu’outil de contrôle statistique de la qualité.
Cependant, la plupart des méthodes d’inférence statistique formelle sont basées sur une autre mesure de la répartition de la distribution. La notion d’« écart moyen au carré» ou d’« écart quadratique moyen » est utilisée pour obtenir des mesures appelées variance et écart-type, respectivement.

DÉFINITION 2.2.2.2.  Variance et écart-type d’un échantillon

La variance de l’échantillon d’un ensemble de données composé des valeurs x_{1 }, x_{2 }, \ldots, x_{n} est

s^{2 } = \frac{1 }{n-1} \sum_{i=1}^{n}\left(x_{i} - \bar{x}\right)^{2 }

L’écart-type de l’échantillon, s, est la racine carrée positive de la variance de l’échantillon.

Sauf pour le remplacement de n par n - 1 dans le diviseur, s^ est la distance au carré moyenne des points de données par rapport à la valeur centrale \bar{x}. Par conséquent, s^ est non négatif, et ne vaut 0 que si tous les points de données sont exactement identiques. Les unités de s^ sont le carré des unités des données d’origine. La racine carrée de s^ (pour obtenir s) produit une mesure de la dispersion exprimée dans les unités d’origine.

Example 2.2.2.1. Pertes des rouleaux de papier (suite)

La dispersion des deux ensembles de pourcentages de pertes répertoriés dans le tableau 2.2.1.1 peuvent être exprimés dans l’un des termes précédents. Pour le fournisseur 1,

\begin{aligned}& Q(0,25) = 0,52 \\& Q(0,75) = 2,89\end{aligned}
et par conséquent,
EI = 2,89 - 0,52 = 2,37 \% \text { de pertes }
De même,
E = 3,62 - 0,37 = 3,25 \% \text { de pertes }
En outre,
\begin{aligned}s^{2 }= & \frac{1 }{6-1}\left((0,37-1,495)^{2 }+(0,52-1,495)^{2 }+(0,65-1,495)^{2 }+(0,92-1,495)^{2 }\right. \\& \left.+(2,89-1,495)^{2 }+(3,62-1,495)^{2 }\right) \\= & 1,945(\% \text { de pertes })^{2 }\end{aligned}
de sorte que
s=\sqrt{1,945} = 1,394 \% \text { de pertes }
Des calculs similaires appliqués aux données du fournisseur 2 donnent les valeurs
EI = 1,23 \% \text { de pertes }
et
E = 6,54 - 0,89 = 5,65 \% \text { de pertes }
En outre,
\begin{aligned}s^= & \frac{8-1}\left((0,89-2,228)^+(0,99-2,228)^+(1,45-2,228)^+(1,47-2,228)^\right. \\& \left.+(1,58-2,228)^+(2,27-2,228)^+(2,63-2,228)^+(6,54-2,228)^\right) \\= & 3,383(\% \text { de pertes })^\end{aligned}
donc
s = 1,839 \% \text { de pertes }
Le fournisseur 2 a un EI plus petit, mais des valeurs de E et s plus grandes. Ceci est cohérent avec la figure 2.2.1.1 : la partie centrale de la distribution du fournisseur 2 est très dense, mais le point extrême rend la variabilité globale plus importante pour le second fournisseur que pour le premier.
Le calcul des variances d’échantillon que nous venons d’illustrer vise simplement à renforcer le fait que s^ représente une sorte de moyenne du carré de l’écart. Bien entendu, la façon la plus judicieuse de trouver les variances d’échantillon dans la pratique est d’utiliser une calculatrice électronique de poche avec une fonction de variance préprogrammée, ou un logiciel statistique.

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.

Partagez ce livre