8.2.1 Variables catégoriques, variables indépendantes et variables muettes

C. Bassim et Bryan Lee

8.2.1 Variables catégoriques, variables indépendantes et variables muettes

Jusqu’à présent, nous avons considéré des modèles de moindres carrés ordinaires (MCO) qui incluent des variables mesurées sur des échelles d’intervalle (ou, à la rigueur et avec prudence, sur des échelles ordinales). Cette approche est satisfaisante lorsqu’on dispose de variables pour lesquelles on peut développer des mesures d’intervalles (ou ordinales) valides et fiables. Mais en ingénierie, il est fréquent de devoir tenir compte de concepts qui ne se prêtent pas facilement à une mesure par intervalles, notamment dans de nombreux cas où une variable est dichotomique (p. ex., présence/absence). Dans d’autres cas, il s’agit d’inclure un concept de nature essentiellement nominale, de sorte qu’une observation peut être classée dans un sous-ensemble, mais non mesurée sur une échelle de type « élevé/faible » ou « plus/moins ». Dans de telles situations, on peut utiliser ce que l’on appelle généralement une variable muette, aussi connue sous les noms de variable indicatrice, variable booléenne ou variable catégorique.

.

Qu’est-ce qu’une « variable muette »?

Une variable dichotomique, qui peut prendre les valeurs 0 ou 1.
Une valeur de 1 représente la présence d’une qualité, un 0 son absence,
Les 1 sont comparés aux 0, qui constituent le « groupe de référence ».
Les variables muettes sont souvent considérées comme une approximation d’une variable qualitative.

.

Les variables muettes permettent de tester les différences de valeur globale de $Y$ pour différents groupes nominaux dans les données. Ce type de test est similaire à un test d’écart moyen pour les groupes identifiés par la variable muette. Les variables muettes permettent de comparer un groupe inclus (les 1) et un groupe omis (les 0). Il est donc important d’indiquer clairement quel groupe est omis et sert de « catégorie de comparaison ».

.

Il arrive souvent qu’il y ait plus de deux groupes représentés par un ensemble de catégories nominales. Dans ce cas, la variable consistera en deux ou plusieurs variables muettes, avec des codes $0 / 1$ pour chaque catégorie, à l’exception du groupe de référence (qui est omis). Voici quelques exemples de variables catégoriques qui peuvent être représentées dans une régression multiple par des variables muettes :

– groupes de traitements expérimentaux et de contrôle (traitement $= 1$ , contrôle $= 0$ )

– genre (homme $= 1$ , femme $= 0$ ou vice versa)

– race et ethnicité (une variable muette pour chaque groupe, avec un groupe de référence omis)

– lot de produits (une variable muette pour chaque lot de produits avec un lot de référence omis)

– réglage de machine (une variable muette pour chaque type avec un type de référence omis)

.

La valeur du coefficient de la variable muette représente la différence estimée de $Y$ entre le groupe de la variable muette et le groupe de référence. Comme la différence estimée est la moyenne de toutes les observations $Y$ , il faut voir la variable muette comme un changement de la valeur de l’ordonnée à l’origine $(A)$ pour le groupe « muet », ce qui est illustré dans la figure 8.2.1.1. Dans ce graphique, la valeur de $Y$ est fonction de $X_1$ (une variable continue) et de $X_2$ (une variable muette). Lorsque $X_2$ est égal à 0 (le cas de référence), c’est la droite de régression du haut qui s’applique. Lorsque $X_2 = 1$ , la valeur de $Y$ est réduite à la droite inférieure. En résumé, on peut estimer que $X_2$ a un coefficient de régression partiel négatif, comme en témoigne la différence de hauteur entre les deux droites de régression.

.

Variables muettes et ordonnée à l’origine

Figure 8.2.1.1 : Variables muettes et ordonnée à l’origine

.

Dans le cas de catégories nominales multiples (par exemple, la région), la procédure est la suivante : choisir la catégorie qui sera le groupe de référence, puis créer une variable muette pour chacune des autres catégories. Par exemple, pour coder un cas à quatre régions (Nord, Sud, Est et Ouest), on peut désigner le Sud comme groupe de référence, puis créer des variables muettes pour les trois autres régions. Ensuite, toutes les observations du Nord obtiendraient une valeur de 1 dans la variable muette Nord, et des 0 dans toutes les autres. De même, les observations relatives à l’Est et à l’Ouest recevraient un 1 dans leur catégorie muette respective et des 0 partout ailleurs. Les observations de la région Sud se verraient attribuer des valeurs de 0 dans les trois catégories. L’interprétation des coefficients de régression partielle pour chacune des trois variables muettes serait alors la différence en $Y$ estimée entre les observations du Nord, de l’Est et de l’Ouest et celles du Sud.

.

Effets d’interaction et variables muettes

Les variables muettes peuvent également être utilisées pour estimer la manière dont l’effet d’une variable diffère dans les sous-ensembles de cas. Ces types d’effets sont généralement appelés « interactions ». Lorsqu’il y a interaction, l’effet d’un $X$ dépend de la valeur d’un autre. Typiquement, les modèles MCO sont additifs, c’est-à-dire qu’on additionne les $B$ pour prédire $Y$ :

.

$Y_{i} = A + B X_1 + B X_2 + B X_3 + B X_4 E_{i}$ .

..

Cependant, un modèle d’interaction a un effet multiplicatif où deux des variables indépendantes sont multipliées :

$Y_{i} = A + B X_1 + B X_2 + B X_3 \cdot B X_4 E_{i}$ .

.

Une « variable muette de pente » est un type particulier d’interaction dans lequel une variable muette a une interaction avec (est multipliée par) une variable d’échelle (ordinale ou supérieure). Supposons, par exemple, que l’on ait émis l’hypothèse que les effets de l’idéologie politique sur la perception des risques liés aux changements climatiques sont différents pour les hommes et pour les femmes. Les hommes sont peut-être plus susceptibles que les femmes d’intégrer systématiquement l’idéologie dans la perception des risques liés au changement climatique. Dans un tel cas, une variable muette $(0 =$ femmes, $1 =$ hommes $)$ pourrait être associée à l’idéologie $(1 =$ fortement à gauche, $7 =$ fortement à droite) pour prédire le niveau de risque perçu des changements climatiques ( $0 =$ aucun risque, $10 =$ risque extrême). Si l’interaction hypothétique était correcte, on observerait une tendance comme celle illustrée à la figure 8.2.1.2.

Illustration d’une interaction de pente

Figure 8.2.1.2 : Illustration d’une interaction de pente

.

En somme, les variables muettes augmentent considérablement la flexibilité des modèles MCO. Elles permettent d’inclure des variables catégoriques et de tester des hypothèses sur les interactions entre les groupes et d’autres variables indépendantes au sein du modèle. Ce type de flexibilité est l’une des raisons pour lesquelles les modèles MCO sont largement utilisés dans le domaine des sciences sociales et de l’analyse politique.

Sources

Le contenu des chapitres 8.2.1.1 et 8.2.2.2 est issu de l’ouvrage Quantitative Research Methods for Political Science, Public Policy and Public Administration : 4th Edition With Applications in R, de Hank Jenkins-Smith, Joseph Ripberger, Gary Copeland, Matthew Nowlin, Tyler Hughes, Aaron Fister, Wesley Wehde, et Josie Davis, consultable à l’adresse https://bookdown.org/ripberjt/qrmbook/. Cet ouvrage est partagé sous licence Creative Commons Attribution 4.0 International (CC BY 4.0).

8.2.1 Variables catégoriques, variables indépendantes et variables muettes

Effets d’interaction et variables muettes

Sources

Licence

Partagez ce livre