"

1.1.4 Échantillonnage

Échantillonnage dans les études énumératives

Une étude énumérative possède une population d’éléments concrète et identifiable. Ce chapitre décrit la sélection d’un échantillon des éléments à inclure dans une recherche statistique.

L’utilisation d’un échantillon pour représenter une population (généralement plus grande) confère des avantages évidents. Par exemple, il peut être très facile d’examiner certaines caractéristiques d’un échantillon de 30 composants électriques, tandis que le recensement (une étude comprenant tous les membres de la population) du lot de 10 000 peut s’avérer impossible. Parfois, l’essai est destructif et l’étude rend l’article
inutilisable. Parfois, la rapidité d’exécution et la qualité des données d’une recherche par échantillonnage dépassent de loin tout ce qui pourrait être obtenu dans le cadre d’un recensement. Si l’étude prend beaucoup de temps, la technique de collecte de données peut se relâcher ou être négligée. Une quantité modérée de données collectées sous étroite supervision et utilisées immédiatement peut être très efficace – souvent plus efficace que les données d’une étude qui pourrait sembler plus complète, mais qui, en réalité, prendrait trop de temps.

Si un échantillon doit être utilisé pour représenter une population, le choix de cet échantillon devient primordial. L’échantillon doit représenter la population d’une manière ou d’une autre. La question traitée ici concerne la manière d’y arriver.

Les méthodes systématiques et fondées sur le jugement peuvent, dans certaines circonstances, produire des échantillons qui représentent fidèlement les caractéristiques importantes d’une population. Si un lot d’articles est fabriqué dans un ordre connu, il peut être raisonnable de sélectionner, par exemple, chaque vingtième article pour l’inclure dans une étude de statistiques d’ingénierie. Il peut aussi être pertinent de forcer l’échantillon à être équilibré, c’est-à-dire que chaque opérateur, chaque machine et chaque lot de matière première
(par exemple) figure dans l’échantillon. Une personne ayant beaucoup d’expérience peut aussi être en mesure d’observer une population physique et d’en extraire un échantillon représentatif de manière assez fiable.

Mais ces méthodes de sélection d’échantillons peuvent poser des problèmes. Les humains sont sujets à des idées préconçues et à des préjugés conscients et inconscients, et par conséquent, les échantillons reposant sur le jugement peuvent ne pas refléter leur population. Les méthodes systématiques peuvent échouer gravement en présence de phénomènes cycliques imprévisibles. (Par exemple, supposons que l’on examine tous les 20e articles d’un lot selon l’ordre dans lequel ils sortent de la chaîne de production. Supposons en outre que les articles soient traités à un moment donné sur une machine dotée de cinq têtes similaires, chacune effectuant la même opération sur un article sur cinq. L’examen de chaque 20e article ne donne une image du comportement que d’une seule des têtes. Les quatre autres têtes pourraient être vraiment mal réglées, et il n’y aurait aucun moyen de s’en rendre compte).

Au-delà de ces problèmes, les méthodes d’échantillonnage systématiques ou basées sur le jugement ne permettent pas de quantifier les propriétés de manière utile. Il n’existe aucune manière efficace d’extraire des informations d’échantillons sélectionnées via ces méthodes et d’en tirer des conclusions fiables sur les marges d’erreur probables. La méthode présentée ci-après éviter les faiblesses des échantillonnages systématiques ou basés sur le jugement.

DÉFINITION 1.1.4.1. Échantillon aléatoire simple

Un échantillon aléatoire simple de taille n dans une population est un échantillon sélectionné de telle manière que chaque collection de n éléments de la population a, a priori, la même probabilité de composer l’échantillon.

La façon la plus simple d’envisager l’échantillonnage aléatoire simple est sans doute de dire qu’il équivaut, sur le plan conceptuel, à tirer n billets d’un chapeau qui contient un billet pour chaque membre de la population.

Exemple 1.1.4.1.  Échantillonnage aléatoire des résident.e.s d’un dortoir

C. Black a réalisé une étude partiellement énumérative et partiellement expérimentale afin de comparer les temps de réaction des étudiant.e.s dans deux conditions d’éclairage différentes. Il a décidé de créer un échantillon aléatoire simple en recrutant 20 étudiant.e.s sélectionné.e.s au hasard dans son dortoir mixte. En fait, la méthode de sélection qu’il a utilisée consistait en une table de chiffres dits aléatoires. Aujourd’hui, il pourrait ’hui utiliser un générateur de nombres aléatoires à l’aide d’un logiciel de calcul statistique.  Mais il aurait tout aussi bien pu écrire les noms de toutes les personnes vivant sur son palier sur des billets de taille uniforme, les mettre dans un bol, les mélanger soigneusement, fermer les yeux et en piger 20.

Méthodes mécaniques, tables de chiffres aléatoires et échantillons aléatoires simples

Pour sélectionner un échantillon aléatoire simple, on peut utiliser des méthodes mécaniques ou des méthodes utilisant des chiffres « aléatoires ». L’efficacité des méthodes mécaniques repose sur la symétrie et le mélange minutieux dans un dispositif physique de randomisation. En d’autres termes, les billets dans le chapeau doivent être de la même taille et bien mélangés avant que la sélection de l’échantillon ne commence.

La première loterie de conscription américaine pour la guerre du Vietnam est un cas célèbre où l’on n’a pas pris les précautions nécessaires pour garantir le bon fonctionnement d’un dispositif mécanique de randomisation. Les anniversaires étaient censés se voir attribuer les numéros de priorité 1 à 366 de manière « aléatoire ». Toutefois, il est apparu après coup que les boules représentant les dates de naissance avaient été placées dans un bac un mois à la suite de l’autre, et que le bac avait été mal mélangé. Lors du tirage des boules, les dates de naissance situées vers la fin de l’année ont reçu une part disproportionnée
des numéros les plus petits. Selon la terminologie actuelle, les cinq première dates de la corbeille ne doivent pas être considérées comme un simple échantillon aléatoire de taille 5. Les exploitants de jeux de hasard s’assurent (par la collecte de données appropriées) que leurs dispositifs mécaniques fonctionnent de manière aléatoire.

L’utilisation de chiffres aléatoires pour l’échantillonnage repose implicitement sur le caractère réellement aléatoire de la méthode utilisée pour générer les chiffres. Généralement, ces méthodes reposent sur des processus physiques aléatoires, comme la désintégration radioactive, ou des générateurs de nombres pseudo-aléatoires (des algorithmes numériques récursifs compliqués). Jusqu’à récemment, il était d’usage de consigner ces chiffres dans des tables imprimées.

Logiciel de statistique et échantillons aléatoires

Avec la démocratisation des ordinateurs personnels, les tables de chiffres aléatoires sont devenues complètement obsolètes. Désormais, on peut utiliser un logiciel statistique ou un tableur pour générer des nombres aléatoires au moment où on en a besoin.

Remarques sur l’échantillonnage aléatoire

Quelle que soit la mise en œuvre de la définition 1.1.4.1, plusieurs commentaires sur la méthode s’imposent. Tout d’abord, il convient d’admettre que l’échantillonnage aléatoire simple ne répond à l’objectif initial de fournir des échantillons représentatifs qu’en moyenne ou à long terme. Il est possible que certains échantillons ainsi sélectionnés ne soient absolument pas représentatifs de la population. Par exemple, un échantillon aléatoire simple de 20 essieux sur 80 pourrait en fait être composé des essieux ayant les plus petits diamètres. Mais cela ne se produit pas souvent. En moyenne, un échantillon aléatoire simple donnera une image fidèle de la population. La définition 1.1.4.1 énonce une méthode, et non une garantie de succès pour une application donnée de la méthode.

Ensuite, il convient également d’admettre qu’il n’existe aucune garantie qu’il sera facile de procéder à la sélection physique d’un échantillon aléatoire simple. Imaginez s’il fallait prendre cinq fours à micro-ondes précis sur un lot de 1 000 fours stockés dans un entrepôt. Ce serait probablement une tâche très désagréable que de localiser et de rassembler les cinq fours correspondant à des numéros de série choisis au hasard pour, par exemple, les transporter vers un
laboratoire d’essais.

Mais les avantages conférés par l’échantillonnage aléatoire simple compensent largement ses inconvénients. Premièrement, il s’agit d’un méthode objective d’échantillonnage. En l’utilisant, on se protège des biais humains conscients et inconscients. Deuxièmement, la méthode introduit des probabilités dans le processus de sélection d’une manière qui se révèle gérable. Par conséquent, la qualité des informations provenant d’un échantillon aléatoire simple peut être quantifiée. Ainsi, on peut utiliser les méthodes d’inférence statistique formelle, de même que les conclusions qui en découlent (« Je suis sûr à 95 % que… »).

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.