2.1.5 Quantiles et diagrammes quantile

La plupart des lecteurs connaissent le concept de percentile (ou rang centile), une notion surtout vue dans le contexte des résultats des examens scolaires. Par exemple, si une personne a obtenu une note la plaçant au 80e rang centile, environ 80 \% des personnes qui ont passé l’examen ont obtenu une moins bonne note, et 20 \% ont obtenu une meilleure note. Ce concept est également utile pour décrire des données d’ingénierie. Toutefois, comme il est souvent plus pratique de travailler en termes de fractions entre 0 et 1 plutôt qu’en termes de pourcentages entre 0 et 100, on utilisera une terminologie légèrement différente : on parlera de « quantiles » plutôt que de rang centiles. Après avoir soigneusement défini les quantiles d’un ensemble de données, on les utilise pour créer divers outils utiles de statistiques descriptives : diagrammes quantile, diagrammes en boîte, diagrammes Q-Q, et diagrammes normaux (un type de diagramme Q-Q théorique).

 

En gros, pour un nombre p compris entre 0 et 1 , le quantile p d’une distribution est un nombre tel qu’une fraction p de la distribution se trouve à gauche, et une fraction 1-p, à droite. Toutefois, en raison du caractère discret des ensembles finis de données, il est nécessaire d’indiquer exactement ce que l’on veut dire par là. La définition 1 donne la convention qui sera utilisée dans ce texte.

Définition 3.1.5.1  Quantile p

Pour un ensemble de données composé de n valeurs ordonnées x_\leq x_ \leq \cdots \leq x_{n},
1. Si p = \frac{i - 0,5}{n} pour un entier positif i \leq n, le quantile p de l’ensemble de données est
Q(p) = Q\left(\frac{i - 0,5}{n}\right) = x_{i}
(Le ie point le plus petit des données est appelé quantile \frac{i - 0,5}{n}.)
2. Pour tout nombre p compris entre \frac{0,5}{n} et \frac{n - 0,5}{n} qui n’est pas de la forme \frac{i - 0,5}{n} avec i entier, le quantile p de l’ensemble de données s’obtient par interpolation linéaire entre les deux valeurs de Q\left(\frac{i - 0,5}{n}\right) avec les valeurs \frac{i - 0,5}{n} correspondantes qui entourent p.
Dans les deux cas, le quantile p est dénoté Q(p).
La définition 2.1.5.1 donne Q(p) pour tous les p compris entre 0,5 / n et (n-0,5) / n. Pour trouver Q(p) pour une telle valeur de p, on isole i dans p = (i - 0,5) / n, ce qui donne
Index (i) du point de données ordonnées au quantile Q(p)
i = n p + 0,5
et on trouve le « (n p+0,5)e point de données ordonnées ».

Exemple 2.1.5.1. Quantiles de force de rupture à sec de serviettes en papier

Lee, Sebghati et Straub ont mené une étude sur la force de rupture de plusieurs marques de serviettes en papier. Le tableau 3.1.5.1 répertorie dix force de rupture (en grammes) rapportées par les étudiant.e.s pour une serviette standard. En ordonnant les données de force et en calculant les valeurs de \frac{i-0,5}, il est facile de trouver les quantiles d’ordre 0,05, 0,15, 0,25, \ldots, 0,85 et 0,95 de la répartition de la force de rupture, comme illustré au tableau 2.1.5.2.

Tableau 2.1.5.1.

.

Tableau 2.1.5.2.

Étant donné qu’il y a n = 10 points de données, chacun d’eux compte pour 10 \% de l’ensemble de données. Appliquons la convention (1) de la définition 3.1.5.1 pour trouver le quantile d’ordre 0,35 (par exemple). Les trois points de données les plus petits et la moitié du quatrième plus petit sont considérés comme se trouvant à gauche du nombre souhaité, et les six points de données les plus grands et la moitié du septième plus grand sont considérés comme se trouvant à droite. Ainsi, le quatrième point de données le plus petit doit être le quantile d’ordre 0,35, comme le montre le tableau 2.1.5.2.

 

Pour illustrer la convention (2) de la définition 1, calculons les quantiles d’ordre 0,5 et 0,93 de la distribution de la force. Étant donné que 0,5 est à \frac{0,5 - 0,45}{0,55 - 0,45} = 0,5 unité à mi-chemin entre 0,45 et 0,55, l’interpolation linéaire donne :
Q(0,5) = (1 - 0,5) Q(0,45) + 0,5 Q(0,55) = 0,5(9,011) + 0,5(9,165) = 9,088 \mathrm{~g}
Puis, comme 0,93 est à \frac{0,93 - 0,85}{0,95 - 0,85} = 0,8 unité à mi-chemin entre 0,85 et 0,93, l’interpolation linéaire donne :
Q(0,93) = (1 - 0,8) Q(0,85) +0,8 Q(0,95) = 0,2(9,614) + 0,8(10,688) = 10,473.2 \mathrm{~g}
Certaines valeurs rondes de p donne des quantités Q(p) qui portent des noms spéciaux.

DÉFINITION 2.1.5.2  Médiane

Définition 2 \quad Q(0,5) est la médiane de la distribution.

DÉFINITION 2.1.5.3  Premier et troisième quartiles

Définition 3 \quad Q(0,25) et Q(0,75) sont respectivement le premier et le troisième quartiles d’une distribution.

Exemple 2.1.5.1 Quantiles de force de rupture à sec de serviettes en papier (suite)

Si l’on se réfère à nouveau au tableau 2.1.5.2 et à la valeur de Q(0,5) précédemment calculée, pour la distribution de la force de rupture, on a :

\begin{aligned}\text {Médiane} & = Q(0,5) = 9,088 \mathrm{~g} \\\text {Premier quartile } & = Q(0,25) = 8,572 \mathrm{~g} \\\text {Troisième quartile} & = Q(0,75) = 9,614 \mathrm{~g}\end{aligned}

On peut représenter les quantiles à l’aide d’un diagramme.

DÉFINITION 2.1.5.4  Diagramme quantile

Un diagramme quantile est un graphique de Q(p) en fonction de p. Pour un ensemble de données ordonnées de taille n contenant les valeurs x_ \leq x_ \leq \cdots \leq x_{n}, on obtient ce graphique en traçant les points \left(\frac{i - 0,5}{n}, x_{i}\right) puis en reliant les points consécutifs par des segments de droite.

C’est la convention (2) de la définition 2.1.5.1, qui demande une interpolation linéaire, qui fait qu’on ajoute des segments de droite au diagramme de quantiles.

Exemple 2.1.5.1.  Quantiles de force de rupture à sec de serviettes en papier (suite)

Si l’on se réfère à nouveau au tableau 2.1.5.2 pour les quantiles de la distribution de la force de rupture, il est clair qu’un diagramme quantile pour ces données impliquera de tracer puis de relier les paires ordonnées consécutives suivantes.

Ce graphique se trouve à la figure 2.1.5.1.

Figure 2.1.5.1. Diagramme quantile des force de rupture de serviettes en papier.

Un diagramme quantile permet d’effectuer de lisser quelque peu les données irrégulières. (On suppose tacitement que pour le mécanisme de génération des données à l’étude, si on augmentait la taille de l’échantillon, on obtiendrait un diagramme quantile plus lisse.)

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.

Partagez ce livre