Types de données de recherche
15 La gestion des données quantitatives en sciences sociales
Dr. Alisa Beth Rod et Dr. Biru Zhou
Objectifs d’apprentissage
À la fin de ce chapitre, vous pourrez :
- Définir les différents types de données quantitatives en sciences sociales.
- Décrire les différentes façons de mettre en œuvre les pratiques de gestion des données de recherche dans le cadre de travaux en sciences sociales avec des données quantitatives.
- Comprendre comment les pratiques de gestion des données de recherche peuvent contribuer à atténuer la crise de la reproductibilité et à faciliter le dépôt de données quantitatives en sciences sociales en vue de leur réutilisation.
Introduction
La première étape dans la gestion des données de recherche quantitatives en sciences sociales est de revoir la conception générale de la recherche et d’identifier où les pratiques de gestion des données de recherche (GDR) peuvent être appliquées pour faciliter la recherche et renforcer les résultats de la recherche. La plupart des recherches quantitatives en sciences sociales suivent la conception des études scientifiques. Ces conceptions aident les chercheuses et chercheurs à générer des questions, à formuler des hypothèses et des prédictions concrètes, à concevoir le projet de recherche, à recueillir et analyser les données de recherche et à documenter les résultats pour communiquer les conclusions au public. Pour contextualiser la GDR dans le monde de la recherche quantitative en sciences sociales, il est important de bien comprendre le processus et le flux de travail de ce genre de projets de recherche. La prochaine section donnera un aperçu des études quantitatives en sciences sociales, ce qui servira de contexte pour les sections suivantes qui traiteront de la gestion des données quantitatives en sciences sociales.
Aperçu des recherches quantitatives en sciences sociales
Les chercheuses et chercheurs qui font de la recherche quantitative en sciences sociales utilisent deux approches générales fondamentales qui peuvent avoir des incidences sur la collecte et la gestion des données. Une de ces approches est la conception descriptive qui vise à explorer un phénomène ou une observation pour décrire un effet (de Vaus, 2001). Les recherches descriptives courantes comprennent des études menées par des gouvernements (p. ex., les niveaux de revenu des ménages, l’utilisation des bibliothèques municipales, les plaintes liées au bruit, le trafic à proximité des centres urbains au fil du temps, etc.). L’objectif des recherches descriptives est de décrire des phénomènes sociaux, économiques ou politiques sans s’attarder sur les causes de ces phénomènes. Des questions de recherche qui utilisent la conception descriptive peuvent comprendre :
- Quel est le niveau de pauvreté des communautés rurales?
- Le niveau d’inégalité sociale est-il en croissance ou en déclin à travers Montréal?
- À Toronto, à quel endroit les gens sont-ils plus susceptibles d’être arrêtés et reconnus coupables d’une infraction?
- Qui est le plus susceptible d’être arrêté et reconnu coupable d’une infraction en Alberta?
Une autre approche utilisée par les chercheuses et chercheurs pour étudier des phénomènes sociaux est la conception explicative qui vise à expliquer un phénomène ou une observation afin de comprendre un effet (de Vaus, 2001). Les études explicatives se préoccupent de comprendre la ou les cause(s) d’un phénomène social, économique ou politique. Les études explicatives sont la suite logique des recherches descriptives établies. Par exemple, si une étude descriptive établit que le taux d’expulsion d’un quartier particulier est nettement plus élevé que celui de tous les autres quartiers, on pourrait vouloir mener une étude explicative pour mieux comprendre les raisons ou les causes de cet écart. Des questions de recherches qui utilisent la conception explicative peuvent comprendre :
- Pourquoi le taux d’expulsion de la Ville Y est-il plus élevé que toute autre ville canadienne?
- Pourquoi les autobus scolaires de la Communauté Z sont-ils considérablement en retard?
- Pourquoi le taux de pauvreté de la Communauté X est-il le plus élevé du Manitoba?
Peu importe l’approche utilisée dans l’étude, la première étape du processus de recherche est de formuler une question ou un ensemble de questions de recherche. La question de recherche exprime l’objectif de l’étude sous forme interrogative. La liste suivante énumère certains exemples de structure pour une question de recherche potentielle (avec x, y et z qui remplacent les concepts) :
- Quel est le lien entre x et y?
- De quelle façon l’emplacement de x a-t-il un effet sur y?
- Quels facteurs structurels ou démographiques peuvent prédire x, y et z?
- Pourquoi x a-t-il un effet sur y?
Voici quelques exemples de ces mêmes questions en y intégrant des concepts sociaux réels :
- Quel est le lien entre la pauvreté et l’éducation?
- De quelle façon l’emplacement des bibliothèques municipales a-t-il un effet sur la cohésion d’une communauté?
- Quels facteurs structurels ou démographiques peuvent prédire le chômage, l’insécurité économique et les besoins en logements sociaux?
- Pourquoi la personnalité a-t-elle un effet sur la susceptibilité à l’effet de cadrage?
La question de recherche encadrera les étapes suivantes dans la conception et dans la mise en œuvre d’une étude quantitative en sciences sociales, comme indiqué dans le tableau ci-dessous. Cliquez sur les titres pour explorer les différentes étapes d’un processus typique de recherche quantitative en sciences sociales :
Processus de recherche quantitative en sciences sociales
De bonnes pratiques de GDR sont pertinentes pour toutes les étapes d’un projet typique de recherche quantitative en sciences sociales, de la planification jusqu’à la publication des résultats de la recherche. Les plans de gestion des données sont des outils importants qui aident les chercheuses et chercheurs à réfléchir au traitement de leurs données de recherche tout au long des différentes étapes du processus de recherche. Dans la section suivante, nous partagerons les considérations de GDR qui s’appliquent particulièrement au travail avec les données quantitatives en sciences sociales.
La gestion des données de recherche quantitatives en sciences sociales : fichiers, formats et documentation
Les données quantitatives en sciences sociales ne comportent pas de différences inhérentes aux autres types de données quantitatives sauf en ce qui concerne leur(s) source(s) et l’objet des données. Les données quantitatives correspondent à des données numériques qui sont mesurées selon une échelle d’intervalles ou de rapport, ou des variables catégoriques qui sont codées avec des variables factices ou converties selon une échelle ordinale. La méthode la plus courante de collecte de données quantitatives originales en sciences sociales se fait par le biais d’outils de sondage.
Les bonnes pratiques de GDR en sciences sociales nécessitent que les chercheuses et chercheurs documentent l’entièreté du processus d’enquête. Quand viendra le temps de partager ou d’archiver les données du sondage, vous pourrez joindre le jeu de données final aux questions du sondage et aux informations sur les personnes participantes et sur la façon dont la recherche a été menée.
Un outil de sondage, ou questionnaire se rapporte à une série de questions posées à une certaine population. Le but est de mesurer un ou plusieurs concepts. Un questionnaire de sondage peut inclure des items ou des questions qui opérationnalisent les différents concepts – c’est-à-dire qui transforment des concepts abstraits en variables et en indicateurs mesurables et quantifiables.
En plus des données de sondage, plusieurs chercheuses et chercheurs en sciences sociales dépendent de données administratives. Les données administratives sont des données recueillies par des organismes ou des agences gouvernementales à des fins administratives (c’est-à-dire, qui n’ont pas d’objectifs de recherche, mais qui visent plutôt à administrer ou à évaluer des services, des produits ou des biens). Des exemples de données administratives peuvent comprendre des statistiques d’état civil (p. ex., les taux de natalité et de mortalité), des dossiers de ressources humaines, des renseignements fiscaux personnels ou municipaux, des budgets, des emplacements de services publics et des bénéficiaires de programmes de services sociaux. Il est important de noter que les données administratives qui ne sont pas accessibles au public sont généralement régies par des licences ou des contrats qui peuvent avoir un impact sur le partage et/ou le dépôt des données. Cette question a été examinée plus en détail au chapitre 13, « Les données sensibles. »
Dans votre pratique de GDR, vous devez tenir compte des licences sur les jeux de données lorsque vous planifiez la manière dont ils pourraient être partagés ou déposés à la fin du projet. Par exemple, certains contrats ou licences peuvent déterminer si, à la fin de la recherche, le jeu de données utilisé peut être partagé pour un processus d’évaluation par les pairs à des fins de vérifications des conclusions ou s’il peut être déposé à des fins de réutilisation par d’autres chercheuses ou chercheurs. Rappelez-vous ce que vous avez appris au sujet des licences et du partage des données dans le chapitre 12, « Planification de la gestion des données pour les processus de travail en science ouverte. »
Que les données soient issues d’enquêtes originales ou de sources administratives, les spécialistes en sciences sociales quantitatives recueillent et entreposent leurs données, la plupart du temps, dans un format tabulaire.
Songer aux formats de préservation pour vos fichiers ou à leur durabilité dans le temps est une bonne pratique de GDR. Les formats courants pour la préservation des fichiers en format tabulaire sont les CSV ou TAB, qui sont tous deux des formats ouverts qui ne dépendent pas de logiciels propriétaires et qui sont accessibles par le biais d’une variété de programmes différents (p. ex., Stat, SAS, SPSS, Excel). Le stockage des données dans des formats non propriétaires ou la création d’une sauvegarde de toutes les données dans un de ces formats constitue une bonne pratique de GDR qui permet d’assurer la durabilité et l’interopérabilité de vos données pour une utilisation future. (Pour en savoir plus sur les formats, voir le chapitre 9, « Un aperçu du fascinant monde des formats de fichiers et des métadonnées. ») Toutefois, les chercheuses et chercheurs utilisent souvent Microsoft Excel pour recueillir et stocker leurs données tabulaires. Étant donné l’omniprésence de ce logiciel dans le paysage de recherche et de l’industrie, son utilisation n’est généralement pas problématique pour la réutilisation éventuelle des données. Le guide du Data Curation Network sur la curation des données de Microsoft Excel est une ressource utile (en anglais uniquement).
En règle générale, les données tabulaires sont organisées de telle façon que chaque rangée représente une observation (p. ex., un participant, un quartier, un immeuble, une année) et chaque colonne représente une variable (p. ex., l’information qui varie à travers les différentes observations). Nous discuterons de formats alternatifs de données tabulaires (p. ex., long versus large) dans la section suivante.
Il existe plusieurs bonnes pratiques en lien avec l’organisation d’un jeu de données tabulaires. L’une d’entre elles est l’élimination des espaces dans les variables, les fichiers et les noms des observations puisque les ordinateurs peinent à interpréter les espaces vides lors de l’automatisation des tâches. Une autre bonne pratique en matière d’attribution de noms est de limiter la longueur du nom des variables; l’utilisation de huit caractères ou moins empêche que le nom soit coupé ou abrégé par les logiciels d’analyse des données. Définir ainsi le nom des variables, vous permettra d’améliorer l’interopérabilité et la réutilisation éventuelle des données par d’autres logiciels.
Il arrive souvent que le nettoyage des données soit nécessaire avant d’analyser, partager ou déposer des données; ce sujet est abordé dans les chapitres 7 (« Le nettoyage de données dans le processus de gestion des données de recherche » ) et 8 (« Nouvelles aventures en nettoyage des données » ). En nettoyant vos données, vous allez aussi vouloir créer une documentation pour les accompagner, y compris une version codée des noms de vos variables et/ou de vos observations ainsi qu’un guide de codification connexe dans un document distinct. Les espaces dans les noms de fichiers ou dans les en-têtes de tableaux peuvent causer certains logiciels ou applications à planter ou peuvent entraîner des erreurs lors de l’ouverture ou de l’utilisation des fichiers. Par exemple, dans un environnement de ligne de commandes, les espaces sont utilisés comme séparateurs. Pour éviter les espaces vides, utilisez la notation chameau (ChaqueMotCommenceParUneMajuscule) ou le trait de soulignement (entre_les_mots) afin de créer des codes qui peuvent être lus par ordinateur.
Prenons par exemple le cas d’une chercheuse qui mène une enquête auprès de la communauté étudiante au premier cycle pour en savoir plus sur les coûts associés au matériel de cours. Le sondage comprend un des items suivants : « Au cours du semestre précédent, étiez-vous inscrit à des cours qui impliquaient des dépenses liées à des déplacements à l’intérieur de la grande région de Calgary? » Ce ne serait pas utile d’inscrire intégralement cette question dans la colonne du tableau. La chercheuse peut donc créer une version codée ou abrégée telle que « FraisTransport » qui remplacera la question intégrale dans l’en-tête de colonne et le nom de la variable dans le jeu de données. Pour garder la trace de ces remplacements ou codes, la meilleure pratique prône la création d’un guide de codification sous forme de document textuel distinct qui fait le lien entre les codes abrégés et les questions originales complètes du questionnaire.
En plus de faire le lien entre les codes et les noms complets des variables ou les items de questionnaire, un guide de codification peut aussi contenir des informations sur les données manquantes et les étiquettes ou valeurs de l’étendue des réponses pour une question particulière. Par exemple, si les réponses potentielles d’une question sont « oui », « non » et « je ne sais pas », la chercheuse pourrait utiliser des codes numériques avec des étiquettes de valeurs pour faire une analyse quantitative des réponses. Le guide de codification peut contenir ces informations en indiquant que « oui » est codé comme 3, « non » est codé comme 2 et « je ne sais pas » comme 1.
Le tableau suivant représente un exemple des informations pouvant se retrouver dans le guide de codification de ce sondage :
Code de la variable | Étiquette de la variable (Question originale) | Options de réponse |
FraisTransport | Au cours du semestre précédent, étiez-vous inscrit à des cours qui impliquaient des dépenses liées à des déplacements à l’intérieur de la grande région de Calgary? | 3 = oui 2 = non 1 = je ne sais pas |
FraisManuels | Au cours du semestre précédent, étiez-vous inscrit à des cours qui impliquaient des dépenses liées à l’achat de manuels scolaires? | 3 = oui 2 = non 1 = je ne sais pas |
Soucis | Vous est-il arrivé d’exprimer à un professeur des soucis en lien avec votre capacité à assumer les coûts du matériel requis pour leur cours? | 3 = oui 2 = non 1 = je préfère ne pas répondre |
Lorsque plusieurs variables ont les mêmes options de réponses – telles que « FraisTransport » et « FraisManuels » dans l’exemple ci-dessus – il est important d’uniformiser les valeurs pour les choix de réponses de ces variables afin d’éviter toute confusion au cours de la phase d’analyse du projet.
Il n’est pas rare que des laboratoires ou des équipes de recherche mènent simultanément plusieurs projets de recherches sur des sujets semblables en utilisant des mesures semblables. Prenons comme exemple deux études semblables qui sont menées en parallèle sur l’impact de la violence en milieu de travail sur des membres du personnel atteints de symptômes du trouble de stress post-traumatique (TSPT). L’une des recherches peut explorer l’intimidation en milieu de travail comme cause des symptômes du TSPT chez les membres du personnel et l’autre peut se pencher sur la violence physique de la part de la clientèle comme cause des symptômes du TSPT chez les membres du personnel. Dans ce cas-ci, les deux études mesurent les symptômes du TSPT. Pour améliorer l’interopérabilité à l’intérieur de l’équipe de recherche, il est important de maintenir à travers les deux études une uniformité dans l’attribution des noms et des codes des mesures du TSPT. Le guide de codification – qui fait partie de la documentation associée au jeu de données, idéalement accompagné d’un fichier LISEZ-MOI et/ou de métadonnées – est essentiel quand une chercheuse ou un chercheur prévoit de partager ou déposer son jeu de données auprès de la communauté de recherche ou de l’ouvrir au public. Il serait impossible d’utiliser le jeu de données sans connaître les définitions de chacune des variables (pour de plus amples exemples, consultez la ressource What is a Codebook du Inter-university Consortium for Political and Social Research (ICPSR), qui donne une description sommaire d’un guide de codification et présente quelques exemples de structures typiques).
Nommer les variables et les fichiers ainsi que définir des versions quantitatives de constructions sociales ou comportementales abstraites peut être complexe. Un des éléments clés dans la GDR pour les disciplines quantitatives, dont les sciences sociales, implique l’établissement de conventions pour le nommage des fichiers et la hiérarchie des répertoires de fichiers en utilisant un plan de gestion des données (PGD). Un PGD est un important outil de gestion de projet pour la documentation des conventions de nommage de fichiers, surtout lorsqu’il est question de données quantitatives qui peuvent comporter plusieurs versions différentes d’un jeu de données en format tabulaire avec des fichiers de code ou des scripts qui peuvent être nécessaires au nettoyage ou à l’analyse des jeux de données.
Les conventions de nommage des fichiers en sciences sociales quantitatives ne diffèrent pas forcément de celles des autres disciplines. Il est nécessaire d’y inclure suffisamment d’informations pour permettre d’identifier un fichier de façon précise et de bien distinguer les différentes versions d’un même jeu de données. Par exemple, il pourrait être important d’inclure « raw » (ou « brut ») dans le nom d’un fichier qui contient des données recueillies avant le nettoyage ou l’analyse. Une bonne pratique implique la création d’une copie du fichier de données brutes, avant toute intervention sur les données, comme fichier de travail et conserver celle-ci en tant que version authentique des données. La copie de travail du fichier de données devrait porter un nom qui la distingue clairement du fichier de données brutes, en plus des autres versions potentielles du jeu de données (p. ex., une version du jeu de données nettoyé ou une version du jeu de données nettoyé qui intègre des variables calculées à partir des données brutes). Au fil d’un projet, plusieurs fichiers peuvent être créés pour un même jeu de données. Un PGD peut être utilisé pour prévoir la création des différents types de fichiers et l’attribution de noms uniques qui permet à ces fichiers d’être bien identifiés. L’ICPSR basé à l’Université du Michigan aux États-Unis, généralement considéré comme étant le dépôt de données en sciences sociales le plus connu, a produit un modèle de PGD (en anglais uniquement) pour les sciences sociales qui comporte des conseils associés aux types de données que les chercheuses et chercheurs en sciences sociales ont généralement à recueillir et à gérer.
Il y a des considérations supplémentaires à prendre en compte dans la gestion de projets quantitatifs en sciences sociales lorsqu’il s’agit d’études longitudinales. L’enquête longitudinale est une méthode courante en sciences sociales où les chercheuses et chercheurs vont recueillir ou comparer des données des mêmes personnes participantes sur une période de plusieurs années. Les défis de ce genre d’enquête sont au niveau de la fusion des données d’une personne participante à une période particulière avec celles de la même personne à une autre période ainsi que de la préservation de l’intégrité de ces données sur toute la période de l’enquête et à travers les différentes itérations des jeux de données. Pour ajouter à la complexité, certaines personnes participantes peuvent délaisser l’enquête au fil du temps – il y aura un certain degré d’abandon et par conséquent des variations dans le nombre de personnes participantes au fil des années.
La GDR comprend les pratiques liées à l’établissement d’un flux de travail ou d’un processus permettant de suivre la façon dont les fichiers sont fusionnés et les changements entre les différentes versions d’un jeu de données. La GDR concerne également les décisions quant au choix des versions du fichier à partager ou à déposer à long terme. Les chercheuses et chercheurs devraient-ils déposer chacune des vagues (p. ex., chaque jeu de données pour une période de temps particulière) comme un jeu de données distinct avec des instructions sur la façon de fusionner les fichiers? Ou devraient-ils partager un seul jeu de données fusionnées qui comprend plusieurs années? Il n’y a pas de bonnes ou de mauvaises réponses à ces questions. La GDR permet d’assurer la prise d’une décision, quelle qu’elle soit, idéalement en fonction de la version du jeu de données nécessaire à la reproductibilité des conclusions publiées ou des normes générales de la discipline, pourvu que la documentation soit recueillie et rendue accessible selon l’option choisie par les chercheuses ou chercheurs.
Des enjeux de GDR associés aux outils et logiciels numériques pour la collecte de données quantitatives en sciences sociales
La recherche par sondage est une méthode courante et peu coûteuse qui est utilisée pour les recherches aussi bien qualitatives que quantitatives en sciences sociales. La plupart des sondages sont de nature non expérimentale. Ils sont utilisés pour décrire et évaluer la prévalence d’un phénomène et/ou pour identifier des liens particuliers entre différents facteurs.
Les renseignements recueillis en sciences sociales par le biais de sondages en ligne peuvent être de nature sensible et contenir des renseignements personnels (p. ex., l’âge, le genre, l’ethnicité, l’adresse courriel, l’adresse IP) et/ou des renseignements personnels de santé (p. ex., des diagnostics antérieurs autodéclarés de problèmes de santé). Comme établi par l’Énoncé de politique des trois conseils sur l’éthique de la recherche avec des êtres humains (EPTC 2), chaque chercheuse et chercheur a le devoir de protéger ses données de recherche et les renseignements des personnes participantes contre les accès non autorisés et illégaux. À cet effet, l’établissement du niveau de sensibilité des données de recherche et des options qui s’imposent pour le stockage, la collecte et l’analyse des données actives constitue un autre aspect clé de la GDR pour tout projet qui implique des êtres humains. Pour en savoir plus, consultez le chapitre 13, « Les données sensibles. »
Par contre, la plupart d’entre nous ne sont pas des spécialistes en cybersécurité. Il est excessivement difficile de vérifier si un fournisseur agit conformément aux lois et règlements en vigueur, s’il dispose de mesures de contrôle de sécurité externes certifiées ou si les données sont chiffrées alors qu’elles sont en transit et au repos. Lorsque possible, l’utilisation d’outils de sondage approuvés par l’établissement ou sous licence institutionnelle peut épargner aux chercheuses et chercheurs de nombreux maux de tête causés par la conformité avec les politiques institutionnelles ou gouvernementales de cybersécurité. En préparant le PGD pour un projet quantitatif en sciences sociales, vous avez la chance de décrire les méthodes de collecte des données ainsi que les outils ou logiciels que vous prévoyez utiliser dans le processus. Il s’agit d’un aspect important dans l’étape de la planification et celui-ci vient confirmer l’utilité d’un PGD dans le contexte de la recherche quantitative en sciences sociales.
Par exemple, si vous aviez à utiliser un outil de sondage en ligne géré par un tiers externe (probablement un service infonuagique), il est important d’enquêter afin de déterminer l’emplacement physique du serveur principal et des serveurs des sous-traitants. Bien que plusieurs outils de sondage infonuagiques soient fiables et sécuritaires, les pratiques de leurs sous-traitants ou leur emplacement physique (p. ex., si le serveur est situé à l’extérieur du Canada) pourraient mettre à risque la sécurité de vos données en raison de leur non-conformité aux lois et règlements canadiens en matière de protection de la vie privée. Si le serveur qui héberge la plateforme de sondage en ligne se trouve aux États-Unis, les données qui y sont stockées sont assujetties au Patriot Act des États-Unis. De plus, certaines ententes de financement particulières pourraient empêcher le stockage des données de recherche à l’extérieur du Canada. Ce genre de considération peut être examiné et résolu d’avance en utilisant un PGD.
La curation des données quantitatives en sciences sociales à des fins de reproductibilité
La dernière étape d’un projet de recherche typique en sciences sociales quantitatives implique la prise de décisions en lien avec le dépôt (c’est-à-dire, la publication) et/ou l’archivage des données qui sous-tendent les publications issues de l’étude. Les normes disciplinaires en sciences sociales associées au partage ouvert des données peuvent varier selon les disciplines ou les champs d’études particuliers, mais le partage devient tranquillement une pratique courante. De plus, les bailleurs de fonds comme les trois organismes subventionnaires du Canada et les publications savantes d’une variété de domaines de sciences sociales exigent de plus en plus l’accès ou le dépôt des données de recherche dans un dépôt public. Toutefois, le moteur derrière cette pression à publier les données de recherche, y compris toute la documentation ou les métadonnées associées, est la crise de la reproductibilité (Turkyilmaz-van der Velden et al., 2020).
La crise de la reproductibilité se rapporte à l’incapacité des chercheuses et chercheurs à répéter ou à reproduire les conclusions des recherches publiées. La répétition est une méthode clé pour assurer la validité ou l’intégrité des conclusions de recherche. Dans la plupart des cas, la raison pour laquelle une étude ne peut être vérifiée par répétition est attribuable à un problème avec les données originales, l’indisponibilité des données ou le manque de détails dans la description des étapes entreprises pour l’analyse des données, ce qui empêche de produire les mêmes résultats (Baker, 2016). Les sciences sociales quantitatives n’ont pas été épargnées par la crise de la reproductibilité et plusieurs rétractations très médiatisées, en raison de problèmes ou de fraudes liés aux données sous-jacentes de la publication, ont unifié les efforts qui visent à soutenir une plus grande transparence dans les pratiques d’accès aux données (Figueiredo et al., 2019). Par exemple, deux politologues ont mené une étude charnière, du moins en apparence, sur les convictions politiques qui a ensuite été publiée en 2015 dans la revue Science. Toutefois, au cours des cinq mois suivants, deux étudiants de troisième cycle ayant fait une demande d’accès aux données à des fins de répétition, ont découvert des preuves de fraude délibérée; la publication a ensuite été rétractée (Konnikova, 2015). Retraction Watch et PubPeer sont deux sites Web populaires qui, par production participative, font le suivi des rétractations et des préoccupations relatives aux données sous-jacentes des recherches publiées dans les publications savantes. Ainsi, la communauté savante se responsabilise pour produire des recherches qui peuvent être reproduites.
En plus du ICPSR, les chercheuses et chercheurs en sciences sociales quantitatives peuvent faire appel à plusieurs dépôts de données publiques pour publier leurs données. Ces dépôts répondent aux normes disciplinaires en matière de transparence et de reproductibilité des recherches, ainsi qu’aux mandats des organismes subventionnaires et des publications savantes qui exigent que les données de recherche soient Faciles à trouver, Accessibles, Interopérables et Réutilisables (FAIR). Une instance Borealis, basée sur le logiciel ouvert Dataverse, est disponible dans la plupart des établissements canadiens en tant que dépôt institutionnel des données. Cette offre s’insère dans un cadre plus large de ressources d’infrastructures en gestion des données de recherche fournies par consortium. Les chercheuses et chercheurs affiliés à ces établissements peuvent déposer leurs jeux de données dans leur dépôt institutionnel de Dataverse. Bien que la plateforme de dépôt soit ouverte à toutes disciplines, le logiciel Dataverse a d’abord été développé pour les données quantitatives en sciences sociales, il est donc bien adapté aux types de fichiers couramment produits par les chercheuses et chercheurs en sciences sociales quantitatives, notamment les petits fichiers tabulaires et les fichiers script qui y sont associés.
Déposer ses données dans un dépôt public représente une étape vers un plus grand accès aux données, mais la pratique ne suffit pas pour assurer la reproductibilité d’une étude ou le respect des principes FAIR. Des étapes de curation supplémentaires devraient être prises, généralement par des bibliothécaires ou d’autres professionnelles ou professionnels de l’information qui peuvent agir comme intermédiaires dans le dépôt des données en convertissant les fichiers d’un format propriétaire – tels que les fichiers SPSS ou STATA – à un format ouvert – tels que R ou CSV. De plus, une documentation est nécessaire pour permettre la réutilisation d’un jeu de données quantitatives ou la reproductibilité des résultats. La documentation d’un jeu de données quantitatives en sciences sociales peut inclure la description de l’étude, le guide de codification, les métadonnées sur la collecte des données (p. ex., les systèmes de pondération utilisés pour les données de sondage, les périodes de collecte des données, les logiciels utilisés pour recueillir et analyser les données, etc.), les scripts ou codes nécessaires pour nettoyer les données ou reproduire les éléments relatifs à une publication, ainsi que la licence pour la réutilisation ou les conditions d’utilisation des données. Les personnes qui effectuent la curation doivent s’assurer que les données quantitatives en sciences sociales et tout outil de collecte des données (p. ex., des outils de sondage) détiennent les licences appropriées. Dans le contexte des sciences sociales quantitatives, les outils de collecte des données d’un projet de recherche peuvent avoir tout autant, sinon plus, de valeur que les résultats provenant des données de cette recherche. Les chercheuses et chercheurs qui utilisent des données administratives (des données municipales ouvertes, des données de Statistiques Canada, etc.) doivent s’assurer que les licences gouvernementales ouvertes permettent le dépôt des jeux de données dérivés et quelles sont les exigences en matière d’attribution pour les sources originales des données.
Le schéma de métadonnées le plus couramment utilisé pour les données en sciences sociales est le Data Documentation Initiative (DDI), qui comprend des champs tels que la taille de l’échantillon, la couverture géographique, l’unité d’analyse (p. ex., un ménage, un individu, etc.) et plusieurs autres champs qui s’appliquent aux sciences sociales. Généralement, les dépôts de données conçus pour héberger des jeux de données en sciences sociales intègrent des champs du DDI dans l’interface de dépôt des données et peuvent ensuite produire automatiquement un fichier de métadonnées lisible par machine (p. ex., XML) comme partie intégrante du processus de téléversement.
Les bonnes pratiques de GDR en sciences sociales comprennent la conservation d’informations précises et détaillées sur l’étude, dont les mesures utilisées pour la collecte des données, les abréviations ou codes utilisés pour le nettoyage et la préparation des données, le script ou le code pour l’analyse des données ainsi que les métadonnées particulières (p. ex., la taille de l’échantillon, la pondération de l’enquête, le code des valeurs factices, etc.). En fournissant des informations complètes et précises sur le projet dans les bons champs de l’interface du dépôt de données, vous augmentez non seulement la découvrabilité et l’impact du projet, mais améliorez également les possibilités de réutilisation des données pour un usage secondaire par d’autres chercheuses et chercheurs.
Conclusion
Règle générale, la gestion des données de recherche quantitative en sciences sociales implique des processus et considérations similaires aux pratiques de GDR appliqués aux données spécifiques des autres disciplines. Les sujets qui sont propres au cycle de gestion des données quantitatives en sciences sociales se rapportent aux outils logiciels particuliers utilisés pour la collecte des données (p. ex., l’utilisation de plateformes infonuagiques de sondages) et à la production ultérieure de multiples fichiers tabulaires au cours du processus de collecte, de nettoyage et d’analyse des données. Les principaux aspects pratiques dans la gestion des données quantitatives en sciences sociales impliquent généralement : le suivi des différentes versions des jeux de données tabulaires par le biais de conventions de nommage de fichiers uniformément appliquées; des noms de fichiers et de variables qui utilisent du texte ou des abréviations lisibles par machine; l’utilisation d’un outil de collecte des données qui permet la personnalisation du formatage des sondages et le maintien d’une documentation exhaustive (p. ex., un guide de codification et des métadonnées) pour s’assurer que les données respectent le plus possible les principes FAIR.
Questions de réflexion
- Pourquoi est-il important d’établir un PGD pour les données d’enquête quantitative en sciences sociales?
- Comment le choix de la conception de la recherche et de la méthode de collecte des données est-il lié aux aspects de la GDR dans un projet de recherche quantitative en sciences sociales?
Éléments clés à retenir
- Les conceptions descriptives visent à explorer un phénomène ou une observation afin d’y décrire un effet, tandis que les conceptions exploratoires visent à expliquer un phénomène ou une observation afin d’y comprendre un effet. Avant même le début du projet de recherche quantitative en sciences sociales, un PGD peut être utile pour établir les conventions de nommage des fichiers, la hiérarchie des répertoires, la préparation des métadonnées et de la documentation pertinente ainsi que la marche à suivre pour le dépôt éventuel des données .
- Les plateformes de sondages les plus couramment utilisées en sciences sociales sont les produits logiciels infonuagiques. En utilisant ce type de plateforme, vous devez tenir compte des implications en matière de cybersécurité et de protection de la vie privée des personnes participantes. Au cours de la phase de collecte des données, gardez à l’esprit comment les tableurs seront versionnés et nommés en vue de leur réutilisation.
- La crise de la reproductibilité se rapporte à l’incapacité des chercheuses et chercheurs à répéter ou reproduire les conclusions des recherches publiées. Si la vérification d’une étude par répétition n’est pas possible, c’est généralement en raison d’un problème avec les données originales, de l’indisponibilité des données ou de la description insuffisante des étapes entreprises pour l’analyse des données, ce qui empêche de produire les mêmes résultats. Ceci a un impact direct sur l’accès aux données qui sous-tendent les publications en sciences sociales quantitatives, généralement par le biais de dépôts de données publics.
Lectures et ressources supplémentaires
Alliance de recherche numérique du Canada
- Exemples de PGD en sciences sociales:
Consortium of European Social Science Data Archives (CESSDA)
Data Curation Network
ICPSR
- What is a Codebook
- Guide to Social Science Data Preparation and Archiving
- Sample Data Management Plan for Depositing Data with ICPSR
Pour des exemples en lien avec l’application de la GDR dans le contexte des sciences sociales, consultez Emmerlhainz, C. (2020). Tutorials on Ethnographic Data Management. Data in the Disciplines IMLS Grant. https://library.lclark.edu/dataworkshops/ethnography-modules
Bibliographie
Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533, 452-454. https://doi.org/10.1038/533452a
de Vaus, D. (2001). Research design in social research. Sage Publications
Figueiredo, D., Lins, R., Domingos, A., Janz, N. et Silva, L. (2019). Seven reasons why: A user’s guide to transparency and reproducibility. Brazilian Political Science Review, 13(2). https://doi.org/10.1590/1981-3821201900020001
Konnikova, M. (2015, 22 mai). How a gay-marriage study went wrong. The New Yorker. https://www.newyorker.com/science/maria-konnikova/how-a-gay-marriage-study-went-wrong
Turkyilmaz-van der Velden, Y., Dintzner, N. et Teperek, M. (2020). Reproducibility starts from you today. Patterns, 1(6), 1-6. https://doi.org/10.1016/j.patter.2020.100099
Sources d'informations ou de preuves qui ont été compilées pour servir de base à la recherche.
Catégorie métadisciplinaire englobant les disciplines académiques qui utilisent des méthodologies et approches scientifiques pour étudier des phénomènes sociaux, culturels, affectifs et de comportements humains. Des exemples de disciplines de sciences sociales comprennent la sociologie, la science politique, l'économie, la psychologie, les études sur l'information et plus.
Type de conception d'étude qui se préoccupe des questions exploratoires (p. ex., quoi? quand? comment? où?). L’étude vise à explorer un phénomène ou à effectuer une observation pour décrire un effet.
Type de conception d'étude qui se préoccupe des liens de causalité (p. ex., les causes et leurs effets ou des questions liées au "pourquoi" d'un effet). L’étude vise à expliquer un phénomène ou une observation pour comprendre un effet.
Description formelle de tout le processus de la chercheuse ou du chercheur, de la collecte des données à leur analyse puis comment elles seront traitées à la fin du projet.
Échelle qui utilise des chiffres dont la distance entre eux est équivalente, soit en ordre croissant ou décroissant, et où zéro pourrait représenter un point sur l'échelle (c’est-à-dire que zéro n'implique pas une absence de valeur). La température et l'heure en sont de bons exemples. Dans le cas de l'échelle de température en degré Celsius, le zéro se rapporte au point où l'eau gèle, non pas à une absence de température.
Échelle qui peut augmenter ou baisser en fonction d'un dénominateur plutôt que de distances équivalentes. Sur une échelle de mesure de rapports, le zéro n'est pas un point sur l'échelle, mais plutôt une absence de valeur. La densité de population est un exemple de mesure de rapports. Dans le cas de densité de population, zéro se rapporte à un endroit sans résidants.
Type de données qui représente des catégories discrètes. Les données catégoriques ordinales peuvent être mises dans un ordre ou classées en séquence. Des exemples comprennent les notes de cours qui utilisent des lettres (p. ex., A, B, C, D, F) et l’échelle de Likert (une échelle avec 5 choix de réponses qui mesurent des constructions latentes ou des phénomènes qui ne peuvent être observés de façon directe). Il existe également des variables catégoriques nominales qui ne peuvent être mises en ordre sur une échelle ou en séquence. Celles-ci peuvent être codées avec des variables factices et incluses dans des analyses quantitatives. Des exemples de variables catégoriques non scalaires comprennent le genre, la race, l’ethnicité, les villes, etc.
Variable textuelle ou non quantitative à laquelle un chiffre a été attribué à des fins d’analyses quantitatives. Par exemple, un jeu de données qui comprend une variable pour le genre pourrait être codé avec 1 pour l’option féminin, 2 pour masculin, 3 pour non-binaire et 4 pour « préfère ne pas répondre. »
Action qui implique l'établissement de définitions mesurables et quantifiables pour des concepts ou des constructions abstraites qui ne peuvent être directement mesurés.
Données recueillies dans le cadre d’un travail de gestion administrative. Les données administratives peuvent être utilisées pour faire le suivi de personnes, d’achats, d’inscriptions, de prix, etc.
Informations intégrées à des tableaux avec des rangées et des colonnes.
Format qui n'appartient pas à une entreprise.
Capacité des données ou des outils provenant de ressources non coopératives à travailler ou à communiquer entre eux avec un minimum d'effort et en utilisant un langage commun. L'interopérabilité exige que les données et les métadonnées utilisent des formats normalisés, accessibles et largement utilisés. Par exemple, lors de la sauvegarde de données tabulaires, il est recommandé d'utiliser un fichier CSV plutôt qu'un fichier propriétaire tel que XLSX (Excel). Un fichier CSV peut être ouvert et lu par davantage de logiciels qu'un fichier XLSX.
Fichier surtout utilisé par des sondeurs qui fournit des informations détaillées sur l'outil de sondage. Par exemple, on y retrouve les questions du sondage, les noms et définitions des variables utilisés pour coder les réponses du sondage, les valeurs acceptées pour chacune des variables, des statistiques sommaires pour chacune des questions, etc.
Caractère spécial réservé par les systèmes ou langages informatiques pour désigner des objets ou éléments indépendants.
Écriture sans espace ni ponctuation qui utilise des lettres majuscules afin de distinguer les mots.
Document qui fournit des renseignements à propos d’un fichier ou d’un jeu de données. Il permet d’assurer la pérennité de l’interprétation correcte des données par toutes les personnes qui les consulteront.
Éléments d’information utilisés pour décrire le contenu ou le contenant d’une ressource. Elles peuvent être structurées ou non.
Type d’étude qui s’intéresse aux effets du temps sur un résultat quelconque. Autrement dit, une étude qui mesure un résultat à plusieurs moments dans le temps. Par exemple, une enquête longitudinale implique une même enquête sur les mêmes individus répétée à plusieurs moments pour comprendre les changements d’attitude ou de comportement au fil du temps.
Système informatique qui est réparti sur plus de deux serveurs dans plus de deux emplacements, permettant ainsi un accès à distance par l’entremise de navigateurs Web ou d’interfaces de programmation (API) pour la puissance de calcul et/ou le stockage des données.
Le Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG), le Conseil de recherches en sciences humaines du Canada (CRSH) et les Instituts de recherche en santé du Canada (IRSC) (les organismes subventionnaires) représentent les trois agences fédérales de financement de la recherche au Canada. Ils sont à la source d’une importante proportion des fonds de recherche au Canada.
Lorsque du code ou un logiciel est ouvert ou en source libre, les personnes qui l’utilisent sont autorisées à inspecter, utiliser, modifier, améliorer et redistribuer le code sous-jacent. Plusieurs programmeuses et programmeurs utilisent la licence MIT lors de la publication de leur code, ce qui implique que toutes les itérations ultérieures du logiciel incluent également la licence MIT.
Schéma de métadonnées basé sur des normes et développé pour les données en sciences sociales.
Processus qui vise à identifier et corriger les données altérées, inexactes ou non pertinentes. Cette étape fondamentale du traitement des données améliore la cohérence, la fiabilité et la valeur des données. (Talend, s.d.).
FAIR est un acronyme qui signifie facile à trouver, accessible, interopérable et réutilisable. Les principes directeurs FAIR ont été élaborés en 2014 et visent à améliorer la réutilisation des données, tant par les machines que par les personnes.