5.3.1 Méthodes non paramétriques
Méthodes non paramétriques
Que faire lorsque les hypothèses vues dans les précédentes leçons (tests t, corrélation, etc.) ne sont pas fondées? Il existe des tests qui s’utilisent lorsqu’un certain nombre d’hypothèses, requises par les tests usuels comme les tests t et les corrélations, ne sont pas fondées (p. ex., en cas de distribution non normale ou d’échantillons de petite taille). Ces tests – appelés tests non paramétriques – utilisent le même type de comparaisons, mais sur la base d’hypothèses différentes.
Hypothèses paramétriques
La statistique paramétrique est une branche des statistiques qui suppose que les données échantillonnées proviennent d’une population qui suit les paramètres et hypothèses qui s’appliquent dans la majorité, voire la totalité, des cas. La plupart des méthodes statistiques élémentaires connues sont paramétriques; nous en avons évoqué bon nombre d’entre elles, et l’article Wikipédia Parametric Statistics traite aussi du sujet.
Hypothèses paramétriques et distribution normale
La distribution normale est une hypothèse courante pour de nombreux tests, notamment le test t, l’ANOVA et la régression. Rappelez-vous les tests paramétriques que nous avons évoqués ici respectaient les hypothèses de distribution normale suivantes : asymétrie et aplatissement des variables nuls ou faibles, et indépendance des termes d’erreur des variables.
Ces hypothèses permettent de déduire que la population suit une distribution normale.
Méthodes non paramétriques
Les méthodes statistiques ne nécessitant pas de faire des hypothèses de distribution quant aux données sont appelées méthodes non paramétriques. Le terme « non paramétrique » ne s’applique pas aux données, mais bien aux méthodes utilisées pour analyser ces dernières. Ces tests utilisent des rangs pour analyser les différences. Les méthodes non paramétriques peuvent être utilisées pour différents types de comparaisons ou de modèles.
Hypothèses non paramétriques
- Les tests non paramétriques reposent sur des hypothèses concernant l’échantillonnage (en particulier, sur son caractère généralement aléatoire).
- En fonction du test non paramétrique utilisé, il y a des hypothèses sur la dépendance ou l’indépendance des échantillons, mais il n’y a pas d’hypothèse sur la distribution des scores dans la population.
Tests non paramétriques et niveau de mesure
Les variables qui suivent des niveaux de mesure catégoriques peuvent nécessiter des tests non paramétriques.
Pensons à l’autonomie, la compétence et le revenu : de telles variables suivraient-elles toujours une distribution normale? Pour le revenu, par exemple, on peut s’attendre à ce que la distribution soit asymétrique, étant donné qu’il y a une faible minorité de gens qui ont un revenu extrêmement élevé.
Moyenne et médiane
Lorsqu’une distribution est fortement asymétrique, la moyenne est affectée par le grand nombre de valeurs (relativement) aberrantes. Par exemple, lorsque l’on mesure quelque chose comme le revenu, où les personnes au salaire très élevé sont rares, mais celles aux revenus moyens et faibles très nombreuses, le « milieu » de la distribution est considérablement « décentré ». Dans ces cas, il est plus pertinent d’utiliser la médiane (la valeur « centrale » – celle qui sépare la population en deux parts égales).
Taille de l’échantillon
La taille de l’échantillon est un autre élément à prendre en compte pour choisir entre les tests paramétriques et les tests non paramétriques. Souvent, les scientifiques souhaitent utiliser un certain type de test paramétrique, mais leur échantillon est trop petit. Et souvent, dans ce genre de cas, on ne peut pas effectuer les tests de normalité en raison de la faiblesse de l’échantillon, qui ne donne pas de résultat interprétable. Si en plus les données ne suivent pas une distribution normale, on peut décider d’utiliser des tests non paramétriques.
Valeurs aberrantes
Comme il l’a été dit dans les chapitres précédents, les tests paramétriques reposent sur la continuité des données de la variable dépendante. Ces données doivent suivre une distribution normale et ne pas présenter de fausses valeurs aberrantes. Cependant, quelques tests non paramétriques peuvent fonctionner sur des données ordinales (classées) pour la variable dépendante. Ces tests pourraient aussi ne pas être affectés par les données aberrantes ou qui ne suivent pas une distribution normale. Chaque test paramétrique possède ses propres critères; il est donc conseillé de vérifier les hypothèses pour chaque test.