"

2.1.7 Diagrammes Q-Q et comparaison des formes de distribution

Il est souvent important de comparer les formes de deux distributions. Pour ce faire, on peut y aller approximativement, avec des histogrammes, mais pour plus de précision, on peut représenter les fonctions quantile des deux distributions sur un même graphique, sachant que « forme égale » équivaut à « fonctions quantile linéairement proportionnelles ». Ce type de diagramme s’appelle diagramme quantile-quantile ou, pour faire court, diagramme \mathbf{Q}-\mathbf{Q}.
Considérons les deux petits ensembles de données artificielles présentés dans le tableau 2.1.7.1. Les diagrammes à points de ces deux ensembles de données sont présentés à la figure 2.1.71. Les deux ensembles de données ont la même forme. Pourquoi? Pour considérer l’égalité des formes, on peut noter que :
2.1.7.1                 
la ie plus petite valeur de l’ensemble de données 2 = 2(ie plus petite valeur de l’ensemble de données 1)+1
Ensuite, en reconnaissant les valeurs de données ordonnées en tant que quantiles et en laissant Q_ et Q_ représenter les fonctions de quantiles des deux ensembles de données, on voit clairement à la figure 2.1.7.1 que
2.1.7.2                         Q_(p) = 2 Q_(p) + 1

Tableau 2.1.7.1.

 

Figure 2.1.7.1 Diagrammes à points de deux
petits ensembles de données.

.

Figure 2.1.7.2. Diagramme Q-Q pour les données du tableau 2.1.7.1.
En d’autres termes, les fonctions de quantile des deux ensembles de données sont linéairement proportionnelles. En observant les figures 2.1.7.1 et 2.1.7.2, il est évident que le graphique des points :
\left(Q_\left(\frac{i - 0,5}\right), \quad Q_\left(\frac{i - 0,5}\right)\right)
(pour i = 1, 2, 3, 4, 5) devrait être exactement linéaire. La figure 2.1.7.2 illustre cela – en fait la figure 2.1.7.2 est un diagramme Q-Q pour les ensembles de données du tableau 2.1.7.1.

DÉFINITION 2.1.7.1.      Diagramme Q-Q

Un diagramme Q-Q de deux ensembles de données avec des fonctions quantile respectives Q_ et Q_ est un diagramme de paires ordonnées \left(Q_(p), Q_(p)\right) pour les valeurs appropriées de p. Lorsque les deux ensembles de données sont de même taille n, les valeurs de p utilisées pour élaborer le diagramme seront \frac{i - 0,5}{n}, avec i = 1, 2, \ldots, n. Lorsque les ensembles de données sont de taille inégale, les valeurs de p utilisées pour élaborer le diagramme seront \frac{i - 0,5}{n} avec i = 1, 2, \ldots, n, où n correspond à la taille de l’ensemble le plus petit.

Étapes d’élaboration d’un diagramme Q-Q

Pour élaborer le diagramme Q-Q de deux ensembles de données de taille égale :
1. On classe les données de la plus petite à la plus grande.
2. On associe les données correspondantes des deux ensembles.
3. On représente graphiquement les paires ordonnées en utilisant les données du premier ensemble pour les abscisses et celles du second pour les ordonnées.
Lorsque l’on traite des ensembles de données de taille inégale, on associe les valeurs ordonnées du petit ensemble aux quantiles du grand ensemble obtenus par interpolation.
Un diagramme Q-Q raisonnablement linéaire indique que les deux distributions ont des formes similaires. Lorsqu’il y a des écarts significatifs par rapport à la linéarité, le caractère de ces écarts révèle la manière dont les formes diffèrent.

Exemple 2.1.7.1. Pénétration des balles (suite)

Retournons à la profondeur de pénétration des balles. Le tableau précédent a fourni la matière première nécessaire à la réalisation d’un diagramme Q-Q. Il suffit d’associer les profondeurs de chaque ligne de ce tableau et de les tracer pour obtenir le tracé de la figure 2.1.7.3.
Dans l’ensemble, le diagramme de dispersion de la figure 2.1.7.3 n’est pas très linéaire. Toutefois, les points des valeurs no 2 à 13 de chaque ensemble de données semblent assez linéaires, ce qui indique que les extrémités inférieures des deux distributions ont des formes similaires (sauf pour leur bout).
L’espace horizontal entre les 13e et 14e points indique que l’écart entre 43,85 \mathrm{~mm} et 47,30 \mathrm{~mm} (pour les données des balles à 230 grains) est disproportionné par rapport à l’écart entre 63,55 et 63,80 \mathrm{~mm} (pour les données des balles à 200 grains). Cela laisse supposer qu’il existe une différence physique fondamentale dans les mécanismes ayant causé la dispersion des données de profondeur des balles à 230 grains. Les statistiques peuvent révéler ce genre d’indice, mais pour expliquer les causes, il faut faire appel à des spécialistes de la balistique ou des matériaux.
En raison de l’écart marqué par rapport à la linéarité produit par le premier point (27,75, 58,00), il existe également une différence importante dans la forme des extrémités inférieures des deux distributions. Pour remettre ce point en ligne avec le reste des points tracés, il faudrait le déplacer vers la droite (augmenter la plus petite donnée des balles à 230 grains) ou vers le bas (diminuer la plus petite observation des balles à 200 grains). En d’autres termes, par rapport à la distribution des balles à 200 grains, la distribution des balles à 230 grains présente une longue queue inférieure. (Ou, autrement dit, par rapport à la distribution des balles à 230 grains, la distribution des balles à 200 grains a une queue inférieure courte.) À noter que la différence de forme était déjà évidente dans le diagramme en boîte de la figure précédente. Encore une fois, il faudrait un spécialiste pour expliquer cette différence dans les formes de distribution.

Figure 2.1.7.3. Diagrammes Q-Q de la profondeur de pénétration des balles

Le plus facile pour expliquer le concept de diagramme Q-Q (un outil très pratique pour comparer des jeux de donnés), c’est de voir une application où l’on compare des données empiriques. Mais le diagramme Q-Q est vraiment utile lorsqu’on l’applique à une fonction quantile qui représente un ensemble de données et à une seconde qui représente une distribution théorique.

DÉFINITION 2.1.7.2 Diagramme Q-Q théorique

Un diagramme Q-Q théorique, ou diagramme de probabilité, pour un ensemble de données de taille n et une distribution théorique, sont les fonctions quantiles sont respectivement Q1 et Q2, est un diagramme de paires ordonnées (Q1(p), Q2(p)) pour des valeurs appropriées de p. Dans cet ouvrage, les valeurs de p prennent la forme \frac{i - 0,5}{n}, avec i = 1, 2,…, n.

Soit Q (\frac{i - 0,5}{n}) le ie point du petit ensemble de données, le
diagramme Q-Q théorique est un diagramme de points dans lequel les abscisses correspondent aux données expérimentales, et les ordonnées, aux quantiles de la distribution théorique. Autrement dit, on utilise les données ordonnées x1 ≤ x2 ≤ … ≤ xn pour tracer les points

2.1.7.3 Paires ordonnées d’un diagramme de probabilité

                  \left(x_i, Q_2\left(\frac{i -0,5}{n}\right)\right)

Un tel diagramme permet de poser la question suivante: « L’ensemble des données a-t-il une forme similaire à la distribution théorique? »

Tracé normal

Le diagramme théorique Q-Q le plus connu est celui de la distribution normale (ou gaussienne), la distribution en forme de cloche bien. Le tableau 2.1.7.2 donne quelques quantiles de cette distribution. Pour trouver Q(p) pour p = 0,01, 0,02, \ldots, 0,98, 0,99, on repère la ligne correspondant au premier chiffre après la décimale et la colonne correspondant au deuxième chiffre après la décimale. (Par exemple, Q(0,37) = -0,33.) Pour approximer les valeurs du tableau 2.1.7.2, on peut utiliser la relation suivante :
2.1.7.3  Approximation des quantiles normaux standards
Q(p) \approx 4,9\left(p^{0,14} - (1 - p)^{0,14}\right)
À ce stade, le tableau 2.1.7.2 semble sortir de nulle part. Nous expliquerons comment l’obtenir à la partie 4, mais pour l’instant, contentons-nous de dire que les quantiles du tableau correspondent à une distribution normale. Imaginons que chaque entrée du tableau 2.1.7.2 corresponde à un point de données dans un ensemble de taille n = 99. Le tableau 2.1.7.3 présente une table de fréquences pour ces 99 points de données. La colonne Comptage du tableau 2.1.7.3 montre clairement la forme de cloche.
Les quantiles normaux standard peuvent servir à tracer un diagramme Q-Q théorique afin d’évaluer la forme en cloche d’un ensemble de données. Le diagramme obtenu est appelé diagramme normal (de probabilité).

Tableau 2.1.7.2. Quantiles normaux standards

Tableau 2.1.7.3. Table de fréquences des quantiles normaux standards

.

Exemple 2.1.7.2. Résistance d’une serviette en papier (suite)

Revenons au test de résistance de la serviette en papier et voyons si les données suivent une distribution en forme de cloche. Le tableau 2.1.7.4 a été établi à partir du tableau original et du tableau 2.1.7.2; il fournit les informations nécessaires pour produire le diagramme Q-Q théorique de la figure 2.1.7.4.
Malgré la petite taille de l’ensemble de données, le diagramme de la figure 2.1..4 semble relativement linéaire, et l’ensemble de données est donc raisonnablement en forme de cloche. La conséquence pratique de cette observation est qu’il est alors possible d’utiliser les modèles de probabilité normale, dont il sera question au chapitre 4, pour décrire la résistance des serviettes en papier. Ces modèles pourraient servir à faire des prévisions de résistance, et les méthodes d’inférence statistique formelle basées sur ces modèles pourraient servir à analyser les données de résistance.

Tableau 2.1.7.4. Quantiles de résistance et quantiles normaux standards

.

Figure 2.1.7.3. Diagramme Q-Q théorique de la résistance des serviettes en papier.
Pour produire des graphiques normaux, on peut utiliser un papier graphique spécial qu’on appelle papier de probabilité normale (ou simplement papier de probabilité). Au lieu de tracer des points sur du papier millimétré ordinaire en utilisant les positions verticales du tableau 2.1.7.2, sur du papier de probabilité, on trace les points en utilisant les positions verticales de la forme \frac{i - 0,5}{n}. La figure 2.1.7.4 montre les données de résistance de l’exemple 2.1.7.2 tracées sur du papier de probabilité. À noter que ce tracé est pratiquement identique à celui de la figure 2.1.7.2.

Figure 2.1.7.4. Tracé normal pour la résistance des serviettes en papier (sur papier de probabilité; image de Keuffel and Esser Company).
Les tracés normaux ne sont pas le seul type de tracés Q-Q théoriques utiles en ingénierie. De nombreux autres types de distributions théoriques sont importants, et chacun d’entre eux peut servir à produire des tracés Q-Q théoriques. Ce point est abordé plus en détail dans d’autres modules, mais l’introduction du tracé Q-Q[/latex]

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.