Utilisation de vos données

➔Modèle de flux de données : traitement des données

Questions de la chercheuse ou du chercheur :

J’ai toutes ces données, et je les comprends, mais comment mon adjointe ou adjoint à la recherche, mes partenaires communautaires ou de futures chercheuses et futurs chercheurs dans mon domaine les comprendront-ils ? Comment pourront-ils utiliser mes données ?

? ? ? ! *

*Questions sur le modèle de flux de données qui contribuent à votre réflexion sur ces éléments complexes :

  • Formats de fichier ?
  • Nombre et taille des fichiers ?
  • Lieux de stockage et de sauvegarde ?
  • Comment enregistrez-vous les métadonnées ?

La phase de traitement des données de la gestion de la curation des données peut être considérée comme le moment de convertir vos données en une forme utilisable et souhaitée en fonction de vos objectifs de recherche, de conservation et de partage. Elle désigne également l’étape où vous convertissez, transférez ou transformez activement des données en formats lisibles par machine (et idéalement dans un format qui pourra être partagé entre de nombreux projets, collaboratrices et collaborateurs et plateformes!) et où vous examinez les lacunes ou les renseignements erronés dans les données. Il se peut que cette phase soit assez itérative ou fastidieuse, d’autant plus qu’elle est souvent entreprise simultanément avec l’étape de la collecte des données : il vous faut retourner aux fichiers de données pour traiter vos données à mesure que d’autres renseignements sont trouvés et recueillis aux étapes ultérieures du projet. Nous sommes avides de passer l’étape de l’analyse des données recueillies, mais à long terme, l’étape du traitement des données permettra une analyse plus approfondie. Encore une fois, cette étape doit être pensée et entreprise dès le début du projet; traitez vos données au fur et à mesure que vous les recueillez. Le coût du traitement de toutes vos données à une étape ultérieure pourrait être très élevé, surtout dans les environnements de recherche actuels qui traitent de grands ensembles de données. En outre, l’analyse de données qui n’ont pas été traitées avec exactitude pourrait ralentir le travail ou générer des constatations trompeuses, peu fiables ou inexactes. 

Lorsque vous traitez vos données, consignez chaque étape, car les décisions que vous prenez sont importantes à communiquer aux personnes qui utilisent les fichiers après vous. Conservez ces notes dans un fichier README pour les mêmes raisons ayant mené à la consignation et la description de votre processus de collecte de données. On pourrait dire que cela représente l’enregistrement de votre processus de pensée ou de tri (p. ex, je vais inclure ceci et exclure cela). Il s’agit en quelque sorte de consigner votre « travail intellectuel » par opposition à votre « produit intellectuel » (p. ex., mon chapitre de livre). Si vous avez l’habitude de travailler dans les archives, vous pouvez également considérer cette documentation comme un « outil de recherche » qui vous aide à communiquer la provenance et l’ordre des dossiers en fonction des relations à la source de leur création. Il s’agit d’un autre exemple qui s’inscrit bien dans le « processus de réflexion » pour permettre aux autres de le comprendre et le reproduire. Par exemple, si vous modifiez un ensemble de données « original » (n’oubliez pas de conserver le fichier maître original!) pour qu’il soit conforme à un projet de recherche donné, cela doit être consigné (modification des en-têtes pour les variables de données du recensement [qui sont des phrases longues] dans un tableau Excel pour être lisible par machine sur une autre plateforme). Réfléchissez aussi aux limites de la recherche : quels fichiers de recherche doivent être partagés entre les partenaires et quels fichiers de recherche individuels doivent être gérés par les chercheuses individuelles et chercheurs individuels? La consignation des décisions prises au sujet du traitement des données influera probablement sur les analyses à venir. 

C’est aussi à ce moment que vous commencez le traitement des métadonnées de chaque fichier, c’est-à-dire que vous ajoutez activement les métadonnées à chaque fichier. Et oui, ici encore, vous devez ajouter les structures de métadonnées et les décisions dans le fichier README. 

Prenons SpokenWeb (UBC Okanagan) comme exemple. Le traitement des fichiers audio analogiques comprend la création de trois niveaux de fichiers numériques :

 

  • Maître (.WAV) 
  • Accès principal (.WAV) 
  • Accès (habituellement .MP3, dérivé du fichier pour l’accès principal). 

Le fichier maître saisit toutes les données audio selon la norme 96 kHz/24 bits et peut, selon la nature de l’événement enregistré, inclure des bruits de fond, comme le raclement des chaises sur le plancher ou de la vaisselle qui s’entrechoque. Si un fichier d’accès (dérivé du fichier principal d’accès) est nettoyé et que le bruit de fond est éliminé, l’information auditive est épurée de l’enregistrement et ces modifications doivent être consignées pour que les personnes qui utilisent le fichier sachent avec quelles versions elles travaillent. Pour certaines chercheuses et certains chercheurs, ces données avec bruit de fond pourraient ne pas être importantes, mais dans d’autres cas, elles constitueront le point de mire de la recherche.  

Licence

Symbole de Licence Creative Commons Attribution 4.0 International

Manuel d'introduction aux données : rendre publiques les données de recherche en sciences humaines numériques Droit d'auteur © 2022 par Felicity Tayler; Marjorie Mitchell; Chantal Ripp; et Pascale Dangoisse est sous licence Licence Creative Commons Attribution 4.0 International, sauf indication contraire.