18 Atelier RStudio : Analyse de la variance
L’analyse de la variance est une technique statistique utilisée pour comparer les moyennes de trois groupes ou plus afin de déterminer l’existence des différences statistiquement significatives. Elle permet de comprendre si les divergences observées dans les moyennes sont dues à des effets réels ou au hasard.
Une telle analyse repose sur la division de la variation globale observée dans les données en deux parties : l’une étant liée aux différences entre les groupes et l’autre reflétant les différences au sein des groupes. Une variation entre les groupes est nettement plus importante que la variation à l’intérieur des groupes, car elle indique des distinctions notables entre les moyennes des groupes.
Il existe différents types de techniques, l’analyse de la variance à un facteur (comparaison des moyennes d’un facteur dans plusieurs groupes) et l’analyse de la variance à deux facteurs (examen de l’influence de deux facteurs sur une variable de réponse). De plus, l’analyse de la variance permet de comprendre la variabilité des données et de déterminer si elles sont influencées de manière significative par différents groupes ou facteurs.
Les hypothèses sont similaires à celles d’un test t, mais s’appliquent à plusieurs groupes. Voici les principales hypothèses :
- Indépendance : Les observations au sein de chaque groupe sont indépendantes. L’hypothèse d’indépendance s’appuie généralement sur la conception expérimentale et n’est pas directement testée statistiquement. Consultez le responsable en cas de doute.
- Normalité : Les résidus (différences entre les valeurs observées et prédites) sont approximativement distribués normalement dans chaque groupe.
- Inspection visuelle : Créez des histogrammes ou des diagrammes Q-Q des résidus pour chaque groupe. Si elles ressemblent à des courbes en cloche, la normalité est probablement respectée.
- Utilisez « shapiro.test() » pour effectuer un test de normalité de Shapiro-Wilk sur les résidus de chaque groupe.
#Shapiro-Wilk normality test for Group 1
shapiro.test(residuals_group1)
#Shapiro-Wilk normality test for Group 2
shapiro.test(residuals_group2)
#Repeat for other groups
- Homogénéité de la variance (Variances égales) : Les variances des résidus sont à peu près égales dans tous les groupes.
Utilisez leveneTest() de la trousse « car » pour effectuer le test de Levene pour l’homogénéité des variances.
# Levene's test for homogeneity of variances (install and load "car" package)
leveneTest(residuals ~ group_variable)
N’oubliez pas de remplacer les résidus par vos résidus calculés et la variable par la variable qui définit les groupes. Si les hypothèses ne sont pas confirmées, optez pour d’autres techniques comme l’analyse de la variance de Welch (pour les variances inégales) ou des tests non paramétriques. Évaluez toujours soigneusement les hypothèses, car tout manquement peut affecter la validité des résultats. N’hésitez pas à consulter le responsable sur les hypothèses et les tests.