2.2.1 Mesures de position

Pour la plupart des gens, le concept de « moyenne » évoque quelque chose de représentatif, ou le « centre », d’un ensemble de données. Les températures peuvent varier d’un endroit à l’autre dans un haut fourneau, mais la température moyenne donne une idée de la température « centrale » ou représentative. Les notes obtenues lors d’un examen peuvent varier, mais on est toujours content d’être au-dessus de la moyenne.
Le mot « moyenne », tel qu’il est utilisé dans le langage courant, correspond en fait à diverses significations techniques. La première est la médiane, Q(0,5), qui a été présentée dans la dernière section. La médiane divise un ensemble de données en deux. Dans un histogramme bien conçu, environ la moitié de l’aire des barres se situe de part et d’autre de la médiane. En tant que mesure du centre, elle est totalement insensible aux effets de quelques observations extrêmes ou aberrantes. Par exemple, le petit ensemble de données
2, 3, 6, 9, 10
a une médiane de 6 , et cela reste vrai même si la valeur 10 est remplacée par 10 000 000 et si la valeur 2 est remplacée par -200 000.
La section précédente a utilisé la médiane comme valeur centrale dans l’élaboration des diagrammes en boîte. Mais la médiane n’a pas le sens technique le plus souvent attaché à la notion de moyenne dans les analyses statistiques. Il est plus courant d’utiliser la moyenne (arithmétique).

DÉFINITION 2.2.1.1.  Moyenne arithmétique.

La moyenne (arithmétique) d’un échantillon de données quantitatives, par exemple , x_1, x_2, \ldots, x_n, correspond à

\bar{x} = \frac{n} \sum_{i=1}^{n} x_{i}

La moyenne est parfois appelée premier moment ou centre de masse d’une distribution, par analogie avec la mécanique. Si on place une masse unitaire le long de la droite numérique à la position de chaque valeur d’un ensemble de données – le point d’équilibre de la distribution de masse se situe à \bar{x}.

Exemple 2.2.1.1. Perte des rouleaux de papier

Hall, Luethe, Pelszynski et Ringhofer ont travaillé avec une entreprise qui découpe du papier à partir de grands rouleaux achetés en gros auprès de plusieurs fournisseurs. L’entreprise souhaitait déterminer la quantité de perte (en poids) sur les rouleaux provenant des différentes sources. Le tableau 2.2.1.1 présente les données relatives au pourcentage de perte que les étudiant.e.s ont obtenues pour six et huit rouleaux de papier, respectivement, achetés auprès de deux sources différentes.
Les médianes et les moyennes des deux ensembles de données sont faciles à obtenir. Pour le fournisseur 1,
Q(0,5) = 0,5(0,65) + 0,5(0,92) = 0,785 \% \text { de pertes }
et
\bar{x} = \frac{1 }{ 6}(0,37 + 0,52 + 0,65 + 0,92 + 2,89 + 3,62) = 1,495 \% \text { de pertes }

Pour le fournisseur 2,

[latex]Q(0,5) = 0,5(1,47) + 0,5(1,58) = 1,525 \% \text { de pertes }[/latex]

et

\begin{aligned}\bar{x} & =\frac(0,89 + 0,99 + 1,45 + 1,47 + 1,58 + 2,27 + 2,63 + 6,54) \\ & = 2,228 \% \text { de pertes }\end{aligned}

Tableau 2.2.1.1.

La figure 2.2.1.1 illustre des diagrammes à points sur lesquels on a indiqué la médiane et la moyenne. Remarquez que les médianes et les moyennes des deux fournisseurs montrent que les pertes du fournisseur 2 sont plus importantes que celles du fournisseur 1. Notez également qu’il existe une différence substantielle entre les valeurs médianes et moyennes pour un fournisseur donné. Dans les deux cas, la moyenne est nettement supérieure à la médiane correspondante. Cela reflète la nature asymétrique à droite des deux ensembles de données. Dans les deux cas, le centre de masse de la distribution est fortement tiré vers la droite par quelques valeurs extrêmement élevées.

Figure 2.2.1.1. Diagrammes à points des pourcentages de pertes

L’exemple 2.2.1.1 montre clairement que, contrairement à la médiane, la moyenne est une mesure centrale qui peut être fortement influencée par quelques valeurs extrêmes. Certaines personnes disent parfois que, pour cette raison, l’une ou l’autre des deux mesures est « meilleure » – une affirmation qui n’a aucun sens. Ni l’une ni l’autre n’est meilleure; il s’agit simplement de mesures ayant des propriétés différentes. Et ces différences, les personnes averties qui lisent des statistiques doivent les garder à l’esprit. Par exemple, le salaire « moyen » des employé.e.s d’une entreprise qui paie neuf personnes 10 000 $ par an et son président 110 000 $ par an peut être décrit comme 10 000 $ par an (médiane) ou 20 000 $ par an (moyenne).

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.

Partagez ce livre