Partage et réutilisation des données de recherche au Canada : pratiques et politiques

Meghan Goodchild; Shahira Khair; Amber Leahey; Kaitlin Newson; Lee Wilson

doi:10.5206/EIXU2154

Contexte canadien pour la gestion des données de recherche

5 Partage et réutilisation des données de recherche au Canada : pratiques et politiques

Meghan Goodchild; Shahira Khair; Amber Leahey; Kaitlin Newson; et Lee Wilson

Objectifs d’apprentissage

À la fin de ce chapitre, vous pourrez :

Comprendre les pratiques, les politiques et les services qui guident le partage et la réutilisation des données de recherche au Canada.
Déterminer les éléments de l’infrastructure de recherche numérique canadienne, notamment les options de stockage comme les dépôts de données et les plateformes de préservation à long terme, ainsi que les services qui soutiennent l’accès à ces infrastructures et leur utilisation.
À l’aide d’études de cas, définir les soutiens et obstacles au partage et à la réutilisation des données tout au long du cycle de vie des données de recherche, en plus des secteurs qui doivent être développés.

Introduction

Les chercheuses et chercheurs au Canada, toutes disciplines et tous domaines confondus, produisent des quantités de données encore jamais vues (Baker et al., 2019). Grâce aux progrès de la science ouverte et des politiques de données ouvertes des maisons d’édition, des organismes de financement de la recherche, des groupes disciplinaires et des établissements, les chercheuses et chercheurs réalisent de plus en plus la nécessité de gérer leurs données conformément aux politiques connexes en matière de dépôt et de partage de données. Ces politiques soutiennent des buts plus larges en ce qui a trait à la transparence, à la reproductibilité et à la réutilisation (Groupe de travail de l’Alliance en gestion des données de recherche [GT GDR de l’Alliance], 2020). (Consultez le chapitre 12, « Planification de la gestion des données pour les processus de travail en science ouverte, » pour obtenir un aperçu de la science ouverte et des données ouvertes).

Accélérer le progrès scientifique et éviter les collectes de données dispendieuses constituent des éléments importants en faveur du partage et de la réutilisation des données. Le partage des données permet également de reproduire les résultats de recherche, ce qui améliore l’intégrité des résultats publiés et le degré de confiance à leur égard. Lorsqu’il est facile de découvrir des données de recherche et d’y accéder, cela accroît la visibilité et l’impact de la recherche. Qui plus est, le partage des données, des environnements de recherche et des outils favorise et améliore la collaboration, ce qui se traduit par une plus grande interopérabilité et des économies en recherche.

Dans le but d’optimiser les avantages du partage et de la réutilisation des données, les résultats des données de recherche doivent être guidés par les principes FAIR – Facile à trouver, Accessible, Interopérable, Réutilisable – abordés au chapitre 2 (Wilkinson et al., 2016). De plus, ils doivent être appuyés par une infrastructure et des services de soutien en recherche numérique selon les principes TRUST – Transparence, Responsabilité, Orientation vers l’utilisateur, Durabilité et Technologie (Transparency, Responsibility, User focus, Sustainability and Technology) (Lin et al., 2020). Par conséquent, le partage de données devient une partie intégrante de la recherche de haute qualité, ce qui exige la mise en pratique continue de la gestion des données de recherche (GDR). Des services de GDR émergent au Canada dans toutes les disciplines, dans les établissements ainsi qu’aux paliers régional et national afin d’appuyer les chercheuses et chercheurs en matière de partage et de réutilisation des données.

Dans le cadre de ce chapitre, vous apprendrez au sujet des politiques et des pratiques, de l’infrastructure de recherche numérique ainsi que des outils et des services permettant le partage et la réutilisation des données de recherche au Canada. Nous examinerons les éléments qui soutiennent le cycle de vie des données ainsi que les services relatifs à la curation et à la préservation des données. Enfin, nous aborderons des études de cas afin de mettre en évidence des pratiques de partage et de réutilisation des données et des défis disciplinaires.

Politiques et pratiques au Canada

Organismes de financement de la recherche

Les organismes de financement et les gouvernements de partout dans le monde ont reconnu la nécessité d’établir des politiques de GDR afin de soutenir l’accès aux données financées par des fonds publics. Les mandats des organismes de financement qui exigent le partage des données influencent le comportement des chercheuses et chercheurs ainsi que la demande pour une infrastructure et des services en GDR (GT GDR de l’Alliance, 2020). La Politique des trois organismes sur la GDR au Canada (2021) alimente une culture de changement pour le dépôt et le partage de données, car elle définit les exigences en vertu desquelles les chercheuses et chercheurs « sont tenus de déposer dans un dépôt numérique les données de recherche, les métadonnées et les codes qui appuient directement les conclusions de la recherche publiées dans des revues de même que les préimpressions découlant de la recherche financée par les organismes subventionnaires » (Gouvernement du Canada, 2021); la mise en oeuvre de cette mesure est à venir. Les titulaires de subventions doivent offrir un accès convenable aux données pour autant que les exigences éthiques, culturelles, juridiques et commerciales le permettent, conformément aux principes FAIR et aux normes propres à leurs disciplines. La souveraineté des données autochtones (abordée en détail au chapitre 3) reconnaît les droits inhérents des communautés autochtones de gouverner la collecte, la propriété et l’utilisation de leurs données, ce qui peut se traduire par des pratiques distinctes en ce qui a trait au partage de leurs données de recherche.

Politiques des organismes de financement

Locales et régionales

Les établissements de recherche canadiens peuvent définir leurs propres exigences pour la gestion et le partage des données en fonction de politiques internes qui régissent les pratiques de la recherche et la propriété intellectuelle. De plus, ils doivent publier une stratégie indiquant comment les pratiques de GDR seront prises en charge (Gouvernement du Canada, s.d.).

Nationales

Politique des trois organismes sur la GDR (2021)
- Certaines demandes de subvention doivent comprendre un plan de gestion des données (mise en œuvre progressive depuis le printemps 2022).
- Les titulaires de subventions doivent verser dans un dépôt numérique les données de recherche, les métadonnées et les codes qui appuient directement les conclusions de la recherche publiées dans des revues, de même que les prépublications préimpressions découlant de la recherche financée par les organismes subventionnaires. Le dépôt doit être effectué au moment de la publication (mise en œuvre à venir).
- Bien que le partage de données ne soit pas exigé, les organismes subventionnaires s’attendent à ce que les chercheuses et chercheurs donnent un accès approprié aux données lorsque les exigences éthiques, culturelles, juridiques et commerciales le permettent et conformément aux principes FAIR ainsi qu’aux normes de leurs disciplines. Dans la mesure du possible, ces données, ces métadonnées et ces codes doivent être reliés à la publication à l’aide d’un identifiant unique pérenne (IUP).
Déclaration de principes des trois organismes en GDR au Canada (2016)
- Les données doivent être collectées et stockées en utilisant des logiciels et des formats qui permettent leur stockage sûr ainsi que leur préservation et leur accès bien au-delà de la durée du projet.
Politique des trois organismes sur le libre accès aux publications (2015)
- Les chercheuses et chercheurs dont les travaux sont financés par les Instituts de recherche en santé du Canada (IRSC) devraient déposer certains types de données (p. ex., bio-informatique) dans des bases de données publiques appropriées.
Politique sur l’archivage des données de recherche (1990)
- Les données de recherche doivent être conservées et rendues disponibles dans les deux années qui suivent l’achèvement du projet (Conseil de recherche en sciences humaines, s.d.).

Internationales

Plusieurs organismes publics de financement de la recherche dans d’autres pays qui soutiennent les chercheuses et chercheurs du Canada exigent que les jeux de données qui sous-tendent leurs publications de recherche soient publiés. C’est le cas notamment des organisations suivantes :

Organismes de financement aux É.-U., comme les National Institutes of Health (NIH) et la National Science Foundation (NSF)
UK Research and Innovation funders
European Commission Horizon 2020

Plusieurs sources privées de financement de la recherche ont leurs propres attentes en matière de partage de données (p. ex., Wellcome Trust, Bill & Melinda Gates Foundation).

Autres politiques et pratiques

Des maisons d’édition ont également encouragé l’adoption de pratiques en GDR. Lorsqu’une déclaration sur la disponibilité des données est exigée, il est beaucoup plus probable que les données de recherche soient partagées en ligne. Lorsque les politiques sont moins rigoureuses, comme le fait de recommander l’archivage de données, les taux d’archivage n’augmentent que légèrement comparativement au fait de ne pas disposer d’une telle politique (Vines et al., 2013). Le partage et la disponibilité des données varient selon la discipline. Par exemple, les domaines de la biologie, des sciences de la Terre, des sciences médicales et des sciences physiques présentent un taux supérieur de partage de données (Stuart et al., 2018); toutefois, les données sont moins faciles d’accès dans des documents en lien avec l’énergie et la catalyse, la psychologie, l’optique et l’optoélectronique et la foresterie (Tedersoo et al., 2021).

Au cours des 20 dernières années, le partage des données s’est amélioré (Tedersoo et al., 2021), mais les études démontrent que les résultats ne sont pas toujours entièrement reproductibles à partir des données partagées en raison d’une documentation et de métadonnées inadéquates (Rieseberg et al., 2021). Des efforts importants ont été déployés pour atténuer ce phénomène. Par exemple, le Journal of Molecular Ecology encourage les autrices et auteurs à utiliser la base de données en libre accès GEOME pour créer des liens permanents entre les données génétiques et les métadonnées géographiques et écologiques afin que les données versées respectent les principes FAIR (Rieseberg et al., 2021). La Public Library of Science (2022) a annoncé le lancement d’un projet pilote de « données accessibles » où certains articles mettront en évidence les liens vers des jeux de données dans des dépôts spécifiques dans le but d’accroître le partage et la découverte de données de recherche et de souligner l’avantage des modèles de science ouverte. L’American Journal of Political Science, en partenariat avec le Odum Institute for Research in Social Science, fournit des services de curation et de vérification de données pour faire en sorte que les jeux de données reproduisent les résultats des articles correspondants (Jacoby et al., 2017). Par conséquent, les politiques, à elles seules, ne suffisent pas; le recours à des solutions propres aux disciplines est requis pour que les données partagées soient accessibles et réutilisables.

Infrastructure, outils et services

Une gamme d’infrastructures est nécessaire pour soutenir la production, le partage et la réutilisation des données tout au long de leur cycle de vie. Ainsi, elles travaillent de concert afin que les données adhèrent aux principes FAIR au-delà de la durée du projet de recherche.

Il existe trois types de stockage de données de recherche : actif, dépôt et archive. La figure 1 définit le stockage actif au cours de la phase de recherche, le stockage dans un dépôt pour la phase d’accès et de publication et le stockage de type archive pour la phase de préservation, laquelle nécessite un traitement supplémentaire afin de soutenir l’accessibilité à long terme.

Le continuum de stockage des données de recherche comprend trois types de stockage. Les caractéristiques du stockage actif incluent l'accès contrôlé, la copie de travail, le court terme (durée du projet) et l'utilisation pour effectuer des recherches. Pour le stockage dans un dépôt, les caractéristiques comprennent le libre accès (de façon approprié), la copie de diffusion, le moyen terme (au-delà de la durée du projet) et l'utilisation pour la découverte et l'accès. Pour le stockage de type archive, les caractéristiques comprennent l'accès ouvert (de façon approprié), la copie de préservation, la préservation à long terme et la reprise après sinistre/copie de dernier recours. Entre ces deux derniers types de stockage, une étape de traitement de préservation est incluse. — Figure 1. Spectre des possibilités de stockage de données de recherche (GT GDR de l’Alliance, 2020). © Tous droits réservés; réutilisé avec permission.

Le tableau 1 donne des détails sur le stockage actif, de type dépôt ou sous forme d’archive et donne des exemples de ce qui est utilisé au Canada. Le tableau 2 aborde les diverses infrastructures de recherche qui aident au partage, à la réutilisation et à l’accès.

Tableau 1 : Types de stockage de données de recherche
Type	Attributs	Exemples
Stockage actif	Prend en charge les données qui doivent changer ou avec lesquelles il faut interagir souvent, de constamment (chaque seconde) à périodiquement (chaque semaine).	Stockage d’analyses et de calculs scientifiques (p. ex., calcul de haute performance régional et national) Stockage d’entreprise institutionnel et personnel (p. ex., disques durs) Stockage infonuagique commercial (p. ex., Microsoft Azure, OneDrive, Google Cloud, services Web d’Amazon) Service de stockage et de partage de fichiers (p. ex., Open Science Framework, Code Ocean)
Stockage de type dépôt	Prend en charge l’intendance et la maintenance de données, des métadonnées et d’autres objets, y compris le code, qui constituent une copie fiable dans le registre scientifique. Comporte quatre fonctions principales : l’ingestion, la curation, la conservation et l’accès (GT GDR de l’Alliance, 2020). Assure habituellement un accès via des plateformes logicielles, notamment des portails et des passerelles de recherche.	Plateformes de dépôt (p. ex., CKAN, InvenioRDM, The Dataverse Project, HUBzero) Services hébergés (p. ex., GitHub, Zenodo, Dépôt fédéré des données de recherche (DFDR), Borealis, dépôts institutionnels ou disciplinaires)
Stockage de type archive	Prend en charge la préservation à long terme; peut ne pas constituer le point d’accès principal à des fins de réutilisabilité, mais offre une fiabilité en ce qui a trait à l’accès et à la réutilisation. Permet aux associations de bibliothèques régionales d’offrir cette infrastructure aux établissements membres.	Archivage institutionnel Stockage employé par les services de bibliothèques universitaires (p. ex., le Ontario Library Research Cloud (OLRC) du Ontario Council of University Libraries (OCUL), offert à l’échelle nationale; et WestVault du Council of Prairie and Pacific University Libraries (COPPUL))

Tableau 2 : Infrastructures de données de recherche au Canada
Type	Attributs	Exemples
Dépôts multidisciplinaires	Le recours aux dépôts disciplinaires est encouragé lorsqu’ils sont disponibles. Autrement, il est possible d’utiliser des dépôts institutionnels ou généralistes qui peuvent prendre en charge plusieurs types de fichiers et des cas d’utilisation.	Consultez le tableau 3 au sujet des dépôts canadiens. Plateformes internationales et services hébergés (p. ex., Mendeley Data, Figshare, Dryad, Zenodo, dépôt Dataverse de Harvard)
Dépôts et infrastructures disciplinaires	Mettent l’accent sur des types de données en particulier (p. ex., génomique) et peuvent utiliser des normes spécialisées. Peuvent servir de base de connaissances, offrant la curation, l’extraction, l’organisation, l’annotation et la création de liens vers des corpus littéraires ou de données. Peuvent servir de portails dédiés à un projet pour recueillir et partager les données de recherche à des fins d’échange, de connaissances et de mobilisation; peuvent comprendre des liens vers des dépôts ou d’autres options de stockage.	Consultez le tableau 3 au sujet des dépôts canadiens. Projets de recherche de grande envergure, notamment Linked Infrastructure for Networked Cultural Scholarship (LINCS), Ocean Networks Canada, Génome Canada, Guichet de soutien à l’accès aux données (GSAD), Linked Parliamentary Data Project (LiPaD)
Outils et services de préservation	Prennent en charge l’entretien et la préservation à long terme des objets numériques utiles pour la recherche. Ont recours à des logiciels spécialisés pour préparer les données de recherche en prévision d’une préservation à long terme à l’aide de techniques comme la normalisation de fichier, le contrôle d'intégrité et la création de paquets de données.	Archivematica — intégration avec des dépôts (p. ex., DFDR, Borealis) Services de préservation consortiaux (p. ex., Archivematica-as-a-service de COPPUL, service Permafrost d’OCUL) Logiciel de préservation national (p. ex., DuraCloud, hébergé pour prendre en charge la préservation numérique pour les abonnés de l’OLRC)
Outils et services de reproduction des données de recherche et de logiciels	Permettent à d’autres de consulter, de manipuler et d’interpréter les données afin d’appuyer la réutilisation et la reproductibilité. Utilisés afin que d’autres personnes puissent reproduire les données (p. ex., aux fins de collecte, d’analyse, de visualisation).	Services et plateformes de reproduction de logiciels et de code (p. ex., Code Ocean, Syzygy, Jupyter Hub, GitHub) Outils qui facilitent la reproduction du code et des environnements de traitement (p. ex., Jupyter Notebooks, Docker)
Services de découverte de données	Relient les métadonnées et les données à l’aide d’un schéma, d’un format et d’une structure communs afin d’aider les chercheuses et chercheurs à trouver et à réutiliser les données. Améliorent la découverte dans les dépôts dont les normes et les niveaux d’interopérabilité varient.	Services de recherche de données de recherche canadiens et internationaux (p. ex., Lunaris, Données ouvertes Canada, OpenAIRE, Google Dataset Search, DataCite Commons, Data Citation Index) Services disciplinaires (p. ex., iReceptor Commons, Global Biodiversity Information Facility, Plateforme canadienne de neurosciences ouvertes)
Interopérabilité et normes	Prend en charge un des quatre types d’interopérabilité : technique, sémantique, organisationnelle et juridique (Corcho et al., 2021).	Identifiants uniques pérennes (IUP) (p. ex., Identifiant numérique d’objet (DOI) pour les données et les articles, ORCID iD pour les chercheuses et chercheurs, ROR pour les organisations, RAiD pour les projets de recherche) Normes de métadonnées (p. ex., Dublin Core, Data Documentation Initiative (DDI), DataCite Schema, Data Catalog Vocabulary) Ontologies et classement par sujet (p. ex., Répertoire de vedettes-matières (RVM), normes ISO, vocabulaires de W3C) Licence de données (p. ex., Creative Commons, Licence du gouvernement ouvert) Licence de logiciel (p. ex, MIT, GNU, Apache) Protocole ouvert et normes d’échange (p. ex., OAI-PMH, SWORD)

Dépôts de données canadiens

Les dépôts de données sont essentiels à l’infrastructure de recherche au Canada. De tels outils nationaux et institutionnels sont mis sur pied pour aider les communautés de recherche à déposer, partager et préserver à long terme leurs données afin d’offrir des services de GDR ouverts, équitables et connectés. Ce faisant, nous évitons les intérêts commerciaux croissants et réduisons la dépendance aux solutions personnalisées comme des sites Web de projet de recherche qui exigent souvent une maintenance et des ressources à long terme. Grâce au financement fédéral, provincial et institutionnel, les dépôts canadiens sont mis à la disposition des chercheuses et chercheurs sans frais supplémentaires et peuvent offrir une plus longue durée de vie que le projet de recherche. Le tableau 3 donne un aperçu des types de dépôts de données au Canada dont plusieurs peuvent être découverts via les registres internationaux comme le Registry of Research Data Repositories (re3data), FAIRSharing et OpenDOAR.

Tableau 3 : Dépôts de données au Canada
Type	Attributs	Exemples
Dépôts multidisciplinaires	Prennent en charge les données provenant de plusieurs disciplines. Peuvent offrir des services de curation. Peuvent agréger des données provenant de différents jeux de données.	Institutionnels (p. ex., Dataverse de l’Université du Nouveau-Brunswick, Dépôt de données de l’Université de l’Île-du-Prince-Édouard). Nationaux (p. ex., Borealis, DFDR)
Dépôts disciplinaires	Prennent en charge les données relatives à des disciplines en particulier. Peuvent offrir des services de curation. Peuvent agréger des données provenant de différents jeux de données.	Disciplinaires (p. ex., Polar Data Catalogue, Barcode of Life Data System, Système intégré d’observation des océans du Canada)
Dépôts gouvernementaux	Conçus pour les données recueillies ou compilées par les ministères. Axés sur une discipline (c’est-à-dire, ce ne sont pas des sites de données ouvertes génériques).	BC Data Conservation Centre Centre mondial de données sur l’ozone et le rayonnement ultraviolet Archive de données climatiques nationales Système de gestion des données d’observation de la Terre de RNCan
Bases de connaissances	Extraient, recueillent et font la curation de données d’un domaine d’étude spécifique. Reposent sur des jeux de données de bases pour relier des corpus d’information.	Avibase DrugBank BioGRID
Dépôts de données universitaires	Élaborés ou pris en charge par les universités pour héberger des données sous licence et ouvertes. Peuvent également comprendre des données gouvernementales.	Services de données de bibliothèque (p. ex., Odesi, Abacus Data Network, Scholars GeoPortal, Géoindex)

Services de soutien

Pour produire des jeux de données au potentiel de réutilisation élevé, les chercheuses et chercheurs doivent adopter de bonnes pratiques de curation alors que les données sont nettoyées, documentées, interreliées, stockées puis partagées. Plusieurs services sont à leur disposition pour élaborer ces pratiques de GDR (voir le tableau 4).

L’évaluation des besoins de l’infrastructure de recherche numérique réalisée en 2021 par l’Alliance de recherche numérique du Canada (l’Alliance) a découvert que les chercheuses et chercheurs ont des niveaux variables d’accès et de sensibilisation au support offert par rapport aux processus de travail de recherche au palier local, provincial et national; l’accès le plus grand se trouve au palier local (Pérez-Jvostov et al., 2021).

Soutiens internes : le premier point de soutien pour plusieurs chercheuses et chercheurs se trouve dans leurs propres groupes de recherche. Par exemple, plusieurs ont recours à des gestionnaires de données pour soutenir les membres de l’équipe avec la gestion et la publication des données. Habituellement, les chercheuses et chercheurs découvrent et sélectionnent les outils et services sur recommandation de leurs pairs (Pérez-Jvostov et al., 2021).
Établissements d’enseignement supérieur : ils offrent des services et un soutien formels par le biais des bureaux de la recherche, des bibliothèques universitaires et des services de calcul informatique (Pérez-Jvostov et al., 2021). L’exigence des trois organismes subventionnaires de disposer de stratégies de GDR aidera à unir le soutien à l’échelle du campus.
Modèles de soutien partagé : ils peuvent améliorer l’efficacité, l’accès et l’équité tout en répondant aux demandes des chercheuses et chercheurs. Ils sont souvent coordonnés par un consortium régional ou national. L’étude de cas 1 illustre une communauté de pratique formant un réseau de soutien pour les gestionnaires d’un dépôt institutionnel.
Services et soutiens par discipline : ils répondent aux besoins de communautés de recherche précises et sont souvent promus à l’échelle nationale et internationale par le biais d’organismes de recherche et de maisons d’édition. Ils sont essentiels pour l’adoption de pratiques et d’outils normalisés dans les disciplines connexes, car ils sont adaptés à des processus de travail de recherche particuliers.

Tableau 4 : Services de soutien au Canada
Catégorie	Services
Planification de la gestion des données (PGD)	L’Alliance soutient l’infrastructure et supervise l’élaboration de l’Assistant PGD, un outil de gestion des données en ligne. Les bibliothèques et bureaux de la recherche universitaires collaborent pour soutenir les chercheuses et chercheurs locaux à développer des PGD conformément à la politique de GDR des trois organismes.
Découverte et accès aux données	Les bibliothèques universitaires soutiennent la découverte et l’accès aux données par le biais de services de référence et d’abonnement à des bases de données. Certains de ces services sont partagés entre les établissements (p. ex., Odesi, dépôt Dataverse Abacus). Des organisations nationales et provinciales permettent l’accès aux données et l’utilisation d’informations démographiques à des fins de recherche. En raison du caractère sensible de ces données, le soutien exige souvent la signature d’un accord avec le fournisseur de service (p. ex., RCCDR et centres de données StatCan, ICES, Population Data BC). L’Alliance soutient un service de découverte national, Lunaris, pour accroître l’exposition aux dépôts de données et aux jeux de données canadiens. Les travaux exploratoires appuient l’accès aux jeux de données partagés sur les infrastructures de calcul de haute performance (p. ex., jeux de données en bio-informatique).
Calcul et stockage	Les services de calcul informatique locaux et les TI offrent du soutien aux chercheuses et chercheurs en gestion des données pour le calcul ainsi que de l’infrastructure de stockage pour les données pendant la phase active de la recherche. L’Alliance et sa Fédération nationale de partenaires accordent une importance au fait d’accroître la prise en charge de la gestion des données pour le stockage actif. Les chercheuses et chercheurs peuvent obtenir du soutien par le biais du soutien technique national de l’Alliance.
Curation et publication des données	Une gamme de flux de travail et de guides ont été développés pour aider les personnes responsables de la curation des données, notamment : Guide pour la curation dans Dataverse Réseau de curation des données : modèles et documents de base (en anglais uniquement) Guides et listes de vérification de DCC (en anglais uniquement) Guide de survie pour la curation des données canadiennes (bêta) Pour appuyer la publication en libre accès, certaines bibliothèques universitaires offrent un service de curation aux chercheuses et chercheurs qui déposent des données et d’autres objets de recherche dans des dépôts institutionnels ou d’autres systèmes de gestion d’actifs numériques. Borealis offre des services locaux par le biais d’un modèle de soutien distribué; l’infrastructure est hébergée de manière centralisée, mais l’aide pour la curation est offerte localement aux chercheuses et chercheurs selon les capacités et l’offre de service des établissements (consultez l’étude de cas 1 ci-dessous). L’Alliance offre du soutien à la curation aux chercheuses et chercheurs qui utilisent le DFDR, un dépôt accessible à l’échelle nationale. Elle aide également les chercheuses et chercheurs à créer et à déployer des portails de recherche sur des infrastructures de calcul informatique de pointe. D’autres dépôts agissent comme des ressources de confiance pour gérer les données de recherche et offrir des services qui soutiennent leurs plateformes (p. ex., Centre canadien des données astronomiques, Ocean Networks Canada, Polar Data Catalogue). Des maisons d’édition commerciales, notamment Springer Nature and Elsevier, offrent des services de soutien à la curation et la publication de jeux de données. D’autres disposent de partenariats avec des dépôts tiers afin d’aider les autrices et auteurs à publier des jeux de données qui soutiennent leurs publications (p. ex., le partenariat entre Wiley et Dryad).
Formation	Les chercheuses et chercheurs bénéficient d’une formation auprès de services élaborés au sein des communautés et des établissements dans leur discipline (Pérez-Jvostov et al., 2021). Ces services sont souvent dirigés par des pairs et des spécialistes en soutien qui agissent à titre de « responsables de l’intendance des données, » développant des activités pour promouvoir la sensibilisation, la compréhension, le perfectionnement et l’adoption d’outils de GDR, de pratiques exemplaires et de ressources. Les principaux événements au Canada comprennent : Ateliers et camps d’entraînement estivaux Cours de type « former le formateur » et ressources Modules de formation en ligne
Domaines de services émergents	Les services de soutien au partage et à la réutilisation des données sont mis sur pied en réaction aux besoins des chercheuses et chercheurs en matière de GDR. Les domaines de services émergents comprennent : Préservation numérique (voir le chapitre 11) Curation des données sensibles (voir le chapitre 13) Curation des logiciels de recherche Souveraineté des données autochtones

Étude de cas 1 : mettre sur pied un service et une communauté de dépôt de type Dataverse au Canada

Contexte

Le projet Dataverse est un logiciel ouvert de dépôt de données de recherche qui permet aux personnes utilisatrices de partager, de citer, d’explorer et d’analyser des données de recherche. Il est développé par l’Institute for Quantitative Social Science de l’Université Harvard avec des partenaires de partout dans le monde. Borealis, le dépôt Dataverse canadien, repose sur le logiciel Dataverse et a commencé en tant que dépôt de données de recherche régional pour l’Ontario Council of University Libraries. Au cours des 10 dernières années, il est devenu un service national, bilingue, qui compte plus de 60 établissements membres. L’infrastructure est hébergée par l’Université de Toronto; les fichiers de données sont stockés en toute sécurité sur le Ontario Library Research Cloud. Borealis offre une option de dépôt aux chercheuses et chercheurs qui ne disposent pas d’un dépôt disciplinaire et qui pourraient bénéficier d’une flexibilité dans les choix de partage des données (p. ex., d’un accès libre à restreint), d’outils d’exploration dans le navigateur ainsi que d’actions et de stockage propices à la préservation.

Analyse

Bien que Borealis soit hébergé de manière centrale, les bibliothèques et les établissements universitaires gèrent leurs collections; ils appuient ainsi leurs chercheuses et chercheurs dans le dépôt et le partage de jeux de données. Puisque la capacité locale varie selon les établissements et les régions (Goddard et al., 2018), il est essentiel de cultiver une communauté de pratique pour renforcer les capacités de chaque établissement et pour développer de façon collaborative les ressources et le matériel de formation nécessaires pour soutenir les chercheuses et chercheurs. En plus des efforts déployés pour mettre sur pied l’infrastructure technique, l’équipe de Borealis a travaillé avec le Groupe d’experts Dataverse Nord de l’Alliance sur des initiatives de développement de la communauté telles que la création de ressources bilingues, de documents de sensibilisation et de formation à l’intention des gestionnaires et des personnes utilisatrices, la tenue de rencontres communautaires mensuelles et le maintien d’une liste de diffusion pour partager librement les connaissances, l’expertise et les besoins des chercheuses et chercheurs (Goodchild et Huck, 2022).

Discussion

Pour que Borealis existe, il est essentiel de créer des espaces et du soutien pour la communauté. La rétroaction aide à définir les priorités en matière d’élaboration technique et de service; la participation de la communauté à la préparation de guides pour l’utilisation et l’administration de Borealis et d’autres projets fait en sorte que les ressources répondent aux besoins de la communauté de recherche. Le but global de la communauté (c’est-à-dire, favoriser le partage et la réutilisation des données de recherche) est en harmonie avec les efforts nationaux pour consolider l’infrastructure de recherche numérique et la communauté de GDR au Canada (GT GDR de l’Alliance, 2020).

Éléments à prendre en considération pour le partage de données

Le partage de données exige de la planification. Dès le début du projet, dans le cadre du plan de gestion des données, les chercheuses et chercheurs doivent réfléchir aux logiciels et aux outils nécessaires pour créer ou collecter, analyser et documenter les données; au stockage approprié et aux procédures de sauvegarde; à la manière dont les données seront déposées et, si possible, partagées; la manière dont les données seront gérées pour assurer la conformité aux exigences éthiques et légales.

Les différences disciplinaires, notamment l’attitude et la culture, peuvent exercer une influence sur le partage et la réutilisation des données. Certains domaines de recherche disposent de traditions à cet égard et peuvent avoir adopté des normes ainsi que des outils pour soutenir ce travail. C’est particulièrement le cas des sciences humaines où les résultats ne correspondent pas toujours aux définitions traditionnelles des données de recherche; les chercheuses et chercheurs peuvent alors penser à utiliser des approches différentes pour favoriser le partage. Des services et des outils sont souvent mis sur pied afin de répondre à des besoins particuliers à une discipline et il peut s’avérer difficile de les adopter ou de les réorienter dans d’autres disciplines ou contextes. Bien que les outils et services généraux peuvent être utiles, ils n’ont souvent pas le contexte disciplinaire nécessaire pour permettre leur réutilisation et leur adoption. Parmi les éléments disciplinaires à prendre en considération, mentionnons :

Les formats de fichier (libre vs propriétaire, outils et logiciels standards au sein de la discipline);
Les normes de métadonnées utilisées pour la documentation et la découverte de jeux de données;
Le stockage de données actives, les outils de transfert de données et les dépôts de données pour soutenir les besoins disciplinaires (p. ex., données massives, données sensibles);
Le choix de dépôt en fonction des caractéristiques et de la communauté qui va l’utiliser;
La disponibilité de la curation des données :
- Examen de la qualité des données;
- Documentation des données aux fins de réutilisation;
- Transformation des données (p. ex., nettoyage, anonymisation, dépersonnalisation);
Les modalités d’accès et les licences de réutilisation;
Les outils d’exploration et de visualisation des données;
Les avantages de partager divers types de données.

Les études de cas suivantes examinent des projets de recherche ou des considérations d’ordre disciplinaire dans les domaines des humanités numériques (étude de cas 2), des sciences de la santé (étude de cas 3) et des sciences naturelles (étude de cas 4). Elles mettent en évidence les enjeux auxquels sont confrontés les chercheuses et chercheurs et mettent de l’avant des solutions ainsi que les leçons apprises.

Étude de cas 2 : humanités numériques

Contexte

La bibliothèque de l’Université Queen’s a organisé l’exposition virtuelle de la collection Diniacopoulos (en anglais uniquement), le point culminant d’un projet de recherche qui présente des films en réalité virtuelle et des modèles 3D à l’échelle d’artéfacts archéologiques grecs et égyptiens de la collection de la faculté d’études classiques. L’exposition virtuelle a été construite sur WordPress et utilise le logiciel Object2VR pour créer une expérience interactive qui permet d’examiner et de faire tourner les objets en réalité virtuelle 3D dans le navigateur.

Analyse

L’équipe de recherche voulait partager et préserver les données du projet pour une utilisation future, car le domaine de la réalité virtuelle ne cesse d’évoluer. Les visionneuses en ligne et les systèmes de gestion de contenu exigent un entretien continu de logiciels et d’outils dont la durée de vie est inconnue, ce qui met en lumière des éléments à prendre en considération au chapitre de la durabilité et de l’accès à long terme. Parmi les défis rencontrés, mentionnons le choix du dépôt, étant donné la taille du jeu de données (60 Go), l’important nombre de fichiers (plus de 6500) et la complexité de la structure de dossiers, sans compter que ce domaine dispose de peu d’options et de pratiques exemplaires. Qui plus est, il était essentiel d’inclure la documentation et les métadonnées disciplinaires pour faire en sorte que les données puissent être réutilisées et comprises hors de leur contexte d’origine.

Discussion

L’équipe de recherche a déposé le jeu de données dans la collection Dataverse de Queen’s (Jones et al., 2017), qui fait partie de Borealis, afin de bénéficier du soutien de la bibliothèque de l’Université Queen’s et de caractéristiques comme des champs de métadonnées exhaustifs et la capacité d’attribuer un identificateur d’objets numériques (DOI) qui pourrait être lié à l’exposition virtuelle. L’équipe de Borealis a pris en charge le dépôt de gros dossiers d’archives compressés de type ZIP pour chaque artéfact. Le débat se poursuit au sujet de la compréhension des données de recherche en sciences humaines. Il faut continuer à étudier la question par le biais de statistiques d’utilisation et de citations des jeux de données pour déterminer s’il existe des défis à la réutilisation de ces données contextuelles et si des outils et des plateformes améliorés pourraient mieux gérer, partager et conserver ces types de projets en humanité numériques.

Étude de cas 3 : partage de données sensibles

Contexte

Les données sensibles font référence aux données qui peuvent causer préjudice si rendues publiques. Habituellement, il s’agit de données recueillies à propos d’êtres humains et peuvent comprendre de l’information sensible, confidentielle ou personnelle en lien, entre autres, avec la santé, l’ethnicité, les opinions politiques ou l’emplacement géographique d’une personne. Les données de recherche qui impliquent des êtres humains doivent être gérées conformément aux lignes directrices du comité d’éthique de la recherche (CÉR) et en recevoir l’approbation. Plusieurs établissements fournissent des normes de sécurité et des lignes directrices en matière de protection pour gérer les données sensibles et confidentielles.

Au Canada, la recherche financée par les trois organismes fédéraux de financement de la recherche (les organismes subventionnaires) qui implique des êtres humains est encadrée par l’Énoncé de politique des trois conseils : Éthique de la recherche avec des êtres humains (EPTC 2) (Groupe en éthique de la recherche, 2022). Les chercheuses et chercheurs doivent se conformer à la politique, laquelle aborde les enjeux de consentement, de la vie privée et de l’équité en lien avec divers types de recherche humaine, notamment les essais cliniques, la recherche génétique et celle impliquant les Premières Nations, les Inuits et les Métis. La recherche portant sur les peuples autochtones peut ne pas être sujette aux lignes directrices de l’EPTC 2, selon les circonstances et les modalités convenues ou qui régissent les données considérées sous le contrôle des personnes participantes ou des groupes communautaires (consultez le chapitre 3, « Souveraineté des données autochtones » ; consultez les principes de PCAP® pour un modèle de gestion des données au sujet des Premières Nations). La manipulation et l’utilisation de données sensibles peuvent être régies par d’autres cadres légaux et éthiques du programme de recherche (p. ex., IRSC, CRSH) ou de l’établissement, ou au palier provincial (p. ex., Loi sur l’accès à l’information et la protection de la vie privée) ou fédéral (p. ex., Loi sur la protection des renseignements personnels et les documents électroniques).

En 2021, les trois conseils ont émis des lignes directrices à l’intention des chercheuses et chercheurs intitulées Lignes directrices pour verser des données existantes dans des dépôts publics (Groupe en éthique de la recherche, s.d.). Le document indique que les chercheuses et chercheurs peuvent déposer et partager des données dans un dépôt si les personnes participantes ont consenti à cet effet ou si un CÉR a donné son approbation. Les chercheuses et chercheurs doivent être conformes à l’EPTC 2 avant le dépôt et le partage des données et obtenir l’approbation du CÉR avant de faire la collecte ou la réutilisation de la recherche qui implique des êtres humains.

Analyse

L’infrastructure et les services de soutien pour le stockage, le dépôt et le partage de données sensibles demeurent une lacune importante au Canada. La complexité entourant les données sensibles exige un croisement entre plusieurs services et unités administratives d’un établissement, notamment les lignes directrices du CÉR, les contrats et services juridiques, les pratiques en matière de GDR ainsi que l’infrastructure et les processus de travail pour gérer les données sensibles tout au long de leur cycle de vie.

Dans le cadre de la recherche en sciences de la santé, plusieurs options sont offertes pour publier ou partager des données; les éléments à prendre en considération varient. La dépersonnalisation ou l’anonymisation des jeux de données comprend la suppression de données identifiables d’un jeu de données. Toutefois, certains d’entre eux ne peuvent pas être dépersonnalisés sans compromettre l’utilité des données. Ils peuvent être partagés par des portails à accès restreint grâce à des ententes de partage/transfert de données. Cette approche présente certains inconvénients: les frais administratifs généraux et le besoin potentiel d’avoir un portail fait sur mesure.

Discussion/conclusions

Des efforts sont continuellement déployés pour améliorer les outils, l’infrastructure, les processus de travail et les ressources en ce qui a trait à la gestion et au partage de données sensibles. Des logiciels sécuritaires et faciles d’utilisation, comme Research Electronic Data Capture (REDCap), sont de plus en plus populaires en tant qu’outils pour la saisie de données en recherche clinique et pour la création de bases de données et de projets conformes aux lignes directrices légales (Patridge et Bardyn, 2018). Le projet de dépôt de données sensibles de l’Alliance a mené à la création d’un outil de cryptage à divulgation nulle de connaissance pour faciliter le dépôt sécuritaire et l’accès contrôlé aux données sensibles au sein de la plateforme DFDR. Pour la prochaine phase du projet, l’équipe de GDR de l’Alliance dirige la participation collaborative entre établissements afin d’élaborer un cadre politique ayant pour but de préciser et de simplifier le flux de travail pour le dépôt et le partage de données sensibles. Le Groupe d’experts en données sensibles de l’Alliance a publié des documents visant à encadrer les pratiques de GDR dans le contexte de l’éthique de la recherche, notamment la boîte à outils pour les données sensibles.

Les chercheuses et chercheurs ont besoin d’un leadership permanent pour trouver des solutions nationales afin de garantir un accès équitable au soutien, aux outils et à l’infrastructure pour la gestion et le partage des données sensibles.

Étude de cas 4 : soutenir les grands producteurs de données au Canada – SuperDARN et le Dépôt fédéré de données de recherche (DFDR)

Contexte

Le Super Dual Auroral Radar Network (SuperDARN) est un réseau composé de 36 radars scientifiques déployés partout dans le monde par des universités et des laboratoires gouvernementaux de 10 pays. SuperDARN Canada (dont le siège social se trouve à l’Université de la Saskatchewan) exploite cinq radars au Canada, lesquels produisent des données précieuses que les chercheuses et chercheurs peuvent utiliser pour comprendre la météorologie de l’espace, la radiocommunication et la physique dans la haute atmosphère terrestre. Toutefois, en raison des saisies de qualité supérieure et des taux de collecte rapides des radars, SuperDARN génère des données à très grande échelle; leur stockage de manière sécuritaire, consultable et accessible constitue un défi. En 2018, SuperDARN Canada a commencé à rencontrer l’équipe du DFDR.

Analyse

La taille, l’échelle et la portée des données, en plus de la complexité du cadre organisationnel de SuperDARN en tant que partenaire de recherche international, présentaient de nombreux défis. La collecte de données de SuperDARN a commencé en 1993; elles existent sous forme brute et traitée. SuperDARN Canada et le DFDR ont réfléchi au format de données qu’il conviendrait le mieux de publier (environ 80 To de données brutes ou environ 10 To de données traitées par version algorithmique) et, parmi les données traitées, quelle génération d’algorithme choisir : l’algorithme le plus ancien, largement utilisé, ou le plus récent. La création de versions des jeux de données pour mettre à jour l’algorithme obsolète signifiait doubler la taille de la collection.

Les données sont collectées au fil du temps, des régions et des instruments par des installations de radars qui fonctionnent dans les deux hémisphères. Par conséquent, les équipes devaient prendre en considération la manière de subdiviser les données en unités publiables les mieux adaptées à la découverte, à la réutilisation, au suivi de l’utilisation et à la création de rapports. Les équipes devaient également réfléchir à la taille des jeux de données et au nombre de fichiers, sans oublier les limites relatives au navigateur Web. Bien que les fichiers soient petits, les jeux de données pouvaient atteindre plusieurs téraoctets en fonction de la manière dont les données étaient organisées.

Puisque les données brutes et traitées étaient offertes uniquement sous forme de fichiers binaires, l’équipe de curation du DFDR ne pouvait pas réaliser de vérification de la qualité. La complexité des données signifiait aussi que sans documentation exhaustive, les jeux de données ne seraient utiles qu’à un nombre restreint de personnes qui participent à la recherche.

Discussion/conclusions

Format

L’équipe a décidé de publier les données sous forme brute depuis 1993.

Curation

L’équipe de curation du DFDR a collaboré avec SuperDARN Canada pour examiner les jeux de données et préparer des fichiers LISEZ-MOI qui saisissent les métadonnées descriptives et techniques pour que la communauté élargie de chercheuses et chercheurs puisse les utiliser. Des liens vers les publications et la documentation connexes ont été ajoutés et les jeux de données ont été reliés à un logiciel d’analyse et de visualisation créé par SuperDARN.

Leçons tirées

En plus des solutions abordées précédemment, ce projet a permis de tirer les leçons suivantes:

La consultation sur les besoins en matière de publication des données peut prendre du temps et le processus est continu. Il s’est écoulé plusieurs années entre la première conversation et l’intégration des premiers jeux de données. Après la publication, le DFDR et SuperDARN Canada continuent de se rencontrer régulièrement.
Il est important d’avoir une communication cohérente, surtout lorsque les décisions exigent des échéances plus longues. Il faut organiser des rencontres régulières, documenter les discussions et les décisions pour faire en sorte que les parties prenantes demeurent sur la même longueur d’onde et que les fils de discussion ne soient pas perdus.
La durabilité et la planification sont essentielles. Dans le cadre de sa collaboration avec SuperDARN, le DFDR devait réfléchir aux besoins en matière de publication des données en lien avec la collecte ainsi que son engagement pour l’avenir.

L’avenir du partage de données au Canada

Plusieurs développements pourraient mieux soutenir les chercheuses et chercheurs du Canada pour tirer pleinement profit des avantages du partage de données. Quelques possibilités sont suggérées ci-après, notamment l’amélioration de l’accès et de l’inclusion, le renforcement des plateformes de recherche qui prennent en charge le cycle de vie des données, l’élaboration d’outils et de technologies pour automatiser les processus de travail de curation et l’amélioration de l’intégration et de l’interopérabilité entre les systèmes et les plateformes.

Accès et inclusion

Les obstacles systémiques à l’inclusion de l’ensemble des chercheuses et chercheurs de toutes les disciplines pour l’accès et l’utilisation des outils et des services de partage des données doivent être supprimés. Ceci permettrait de favoriser une adoption plus équitable des politiques et pratiques de partage de données. De nouvelles façons de concevoir le partage des données sont nécessaires pour transformer les infrastructures qui prennent en charge tous les types de données de recherche, à la fois en matière de formats et de normes, mais aussi en ce qui a trait aux modèles et processus de travail encore théoriques.

Au fur et à mesure que les processus de travail de partage de données évoluent, il faut veiller à créer des modèles d’édition équitables. Étant donné le coût élevé du stockage, particulièrement pour les gros jeux de données, nous devons équilibrer durabilité et équité.

Exemples

Davantage d’options de personnalisation des dépôts de données; des outils et des normes flexibles;
Des normes d’accessibilité Web dans les logiciels et plateformes;
Des ententes d’accès libre entre établissements de recherche, maisons d’édition et dépôts.

Plateformes de cycle de vie de la recherche

Les processus de travail habituels pour téléverser ou télécharger des données d’un dépôt exigent le transfert de données entre les plateformes et entre les emplacements de stockage. Cette façon de procéder est inefficace et dispendieuse, voire impossible pour les gros ensembles de données en raison du coût, du temps nécessaire pour le transfert ou des limites de l’infrastructure. De plus, certains jeux de données dépendent de logiciels ou d’environnements informatiques spécialisés pour réaliser des analyses. Les plateformes de recherche et les grappes de stockage qui prennent en charge le cycle de vie complet des données, où il serait possible d’analyser les données, d’en faire la curation et où une version sûre serait partagée, sont nécessaires.

Exemples

Des outils faciles à utiliser pour redistribuer les jeux de données entre plusieurs couches de stockage diverses (p. ex., déplacer des données depuis et vers un dépôt et un stockage actif);
Des plateformes infonuagiques complètes permettant l’analyse, la curation et le partage de données.

Automatisation de la curation

Pour faire progresser la science ouverte, il ne suffit pas de rendre les données accessibles. Il faut temps et argent pour que les jeux de données soient conformes aux principes FAIR. Les nouveaux outils et les nouvelles technologies pourraient réduire cet investissement et soutenir les chercheuses, les chercheurs ainsi que les personnes responsables de la curation à produire des résultats de recherche de qualité supérieure.

Exemples

Des algorithmes d’intelligence artificielle qui génèrent des métadonnées de qualité supérieure à partir des données;
Des logiciels pour le couplage automatisé de données, à l’intérieur des jeux de données et entre eux;
Des logiciels qui guident les chercheuses et chercheurs dans la documentation de leurs jeux de données, avec des normes et des taxonomies intégrées;
Des logiciels qui vérifient la reproductibilité et la qualité des jeux de données.

Intégration et interopérabilité

Comme l’illustre la gamme de politiques, d’outils et de services qui soutiennent le partage des données de recherche, l’impulsion est grande pour faire progresser ces infrastructures. Toutefois, plusieurs sont offerts et développés en silos, reliés par trop peu d’éléments de logiciel médiateur ou de politiques-cadres. Alors que ces infrastructures sont mises sur pied, l’interopérabilité (p. ex., relier la politique à la plateforme, la plateforme au service, le service à la politique) et l’intégration aux processus de travail de recherche et d’édition se trouveront au cœur des activités visant à améliorer la facilité d’utilisation et l’adoption accrue de pratique de partage de données.

Exemples

Des cadres politiques pour le partage de données au-delà des limites des juridictions;
L’intégration des plans de gestion des données à l’infrastructure de recherche et de partage;
La connexion des jeux de données dans un réseau plus vaste de résultats de recherche.

Conclusion

L’infrastructure, les outils et services canadiens qui soutiennent le partage de données de recherche sont importants, surtout à la lumière des politiques qui exigent un accès aux données financées par des fonds publics. Le domaine d’étude d’une chercheuse ou d’un chercheur et les préoccupations éthiques ont un impact sur la manière dont les données sont partagées et influencent l’élaboration de politiques et d’infrastructures qui pourraient faire progresser le partage de données au Canada.

Questions de réflexion

Quels sont les défis en matière de partage de données de recherche?
Quels sont les types de stockage de données? Donnez un exemple pour chacun d’eux.
Que faut-il prendre en considération en matière de partage des données? Quel rôle jouent les différences relatives à la discipline à cet égard?
Quels types de services de données (local, spécifique à un domaine ou national) pourraient être mis sur pied pour aborder les défis et obstacles mentionnés dans ce chapitre?

Éléments clés à retenir

Les organismes de financement et les maisons d’édition peuvent définir des exigences qui favorisent le partage de données de recherche; toutefois, les politiques à elles seules ne suffisent pas à créer des résultats reproductibles. Des solutions techniques et particulières à la discipline sont nécessaires pour rendre les données accessibles et réutilisables.
Les options de stockage, les infrastructures et les dépôts de données au Canada soutiennent la production, le partage et la réutilisation des données de recherche tout au long de leur cycle de vie. Le stockage de données de recherche peut être divisé en trois types : actif, de dépôt et archivistique. Les établissements de recherche canadiens offrent souvent des infrastructures de stockage à leurs chercheuses et chercheurs, bien que la disponibilité varie selon la capacité de l’établissement.
Des services de soutien existent pour les chercheuses et chercheurs du Canada qui élaborent des pratiques de GDR, qui publient des données ou qui planifient la réutilisation de données, y compris des services provenant de leurs propres groupes de recherche ou établissements d’enseignement supérieur et des services uniques pour répondre aux besoins de communautés de recherche en particulier.
Les chercheuses et chercheurs devraient prendre en considération les différences disciplinaires et le contexte relatif au partage des données. Traditionnellement, certains domaines sont ouverts au partage et à la réutilisation des données. Si certaines disciplines ont adopté des normes et des outils pour soutenir ce travail, d’autres peuvent en avoir besoin pour aborder des sujets comme les métadonnées, la taille des fichiers, le type de fichier et les exigences relatives aux données sensibles.
Le partage et la réutilisation des données sont soutenus par l’intégration et l’interopérabilité des systèmes et des plateformes, notamment celles qui prennent en charge le cycle de vie et les technologies qui facilitent les processus de travail liés à la curation des données.

Lectures et ressources supplémentaires

Barsky, E., Laliberté L. W., Leahey, A. et Trimble, L. (2017). Chapter 3. Collaborative Research Data Curation Services: A View from Canada. Dans L. R. Johnston (dir.), Curating research data, volume one: Practical strategies for your digital repository (p. 79-101). Association of College and Research Libraries. https://dx.doi.org/10.14288/1.0340778

Cheung, M., Cooper, A., Dearborn, D., Hill, E., Johnson, E., Mitchell, M. et Thompson, K. (2022). Practices before policy: Research data management behaviours in Canada. Partnership: The Canadian Journal of Library and Information Practice and Research, 17(1), 1–80. https://doi.org/10.21083/partnership.v17i1.6779

First Nations Information Governance Centre. (2014, 23 mai). Ownership, control, access and possession (OCAP™): The path to First Nations information governance. https://achh.ca/wp-content/uploads/2018/07/OCAP_FNIGC.pdf

Garnett, A., Leahey, A., Savard, D., Towell. B. et Wilson, L. (2017). Open metadata for research data discovery in Canada. Journal of Library Metadata, 17(3-4), 201-217. https://doi.org/10.1080/19386389.2018.1443698

Thompson, K. et Kellam, L. M. (2016). Introduction to databrarianship: The academic data librarian in theory and practice. Dans L. M. Kellam et K. Thompson (dir.), Databrarianship: The academic data librarian in theory and practice. Association of College and Research Libraries. https://scholar.uwindsor.ca/cgi/viewcontent.cgi?article=1047&context=leddylibrarypub

Rice, R. et Southall, J. (2016). The data librarian’s handbook. Facet Publishing.

Bibliographie

Baker, D., Bourne-Tyson, D., Gerlitz, L., Haigh, S., Khair, S., Leggott, M., Moon, J., Ridsdale, C., Tourangeau, R. et Whitehead, M. (2019). Research data management in Canada: A backgrounder. Zenodo. https://doi.org/10.5281/zenodo.3574685

Conseil de recherche en sciences humaines. (s.d.). Politique sur l’archivage des données de recherche. Gouvernement du Canada. https://www.sshrc-crsh.gc.ca/about-au_sujet/policies-politiques/statements-enonces/edata-donnees_electroniques-fra.aspx

Corcho, O., Eriksson, M., Kurowski, K, Ojsteršek, M., Choirat, C. van de Sanden, M. et Coppens, F. (2021). EOSC interoperability framework: Report from the EOSC executive board working groups FAIR and architecture. Publications Office of the European Union. https://data.europa.eu/doi/10.2777/620649

Goddard, L., Barsky, E., Cooper, A., Darnell, A., Davis, C., Doiron, J. et Taylor, S. (2018). Dataverse north working group: Year 1 recommendations. UBC Faculty Research and Publications. https://doi.org/10.14288/1.0386773

Goodchild, M. et Huck, J. (2022, 29 mars). Building a shared open research data repository community in Canada. Open Science Framework. https://osf.io/b9vyt

Gouvernement du Canada. (2021). Politique des trois organismes sur la gestion des données de recherche. https://science.gc.ca/site/science/fr/financement-interorganismes-recherche/politiques-lignes-directrices/gestion-donnees-recherche/politique-trois-organismes-gestion-donnees-recherche

Gouvernement du Canada. (s.d.). Stratégies institutionnelles de gestion des données de recherche publiées. https://science.gc.ca/site/science/fr/financement-interorganismes-recherche/politiques-lignes-directrices/gestion-donnees-recherche/strategies-institutionnelles-gestion-donnees-recherche-publiees

Groupe de travail sur la gestion des données de recherche de l’Alliance. (2020). État actuel de la gestion des données de recherche au Canada. Zenodo. https://zenodo.org/record/6647045

Groupe en éthique de la recherche. (s.d.). Lignes Directrices pour verser des données existantes dans des dépôts publics. Gouvernement du Canada. https://ethics.gc.ca/fra/depositing_depots.html

Groupe en éthique de la recherche. (2022). Énoncé de politique des trois conseils : Éthique de la recherche avec des êtres humains – EPTC 2 (2022). Gouvernement du Canada. https://ethics.gc.ca/fra/policy-politique_tcps2-eptc2_2022.html

Jacoby, W. G., Lafferty-Hess, S. et Christian, T-M. (2017). Should journals be responsible for reproducibility? Inside Higher Ed Blog. https://www.insidehighered.com/blogs/rethinking-research/should-journals-be-responsible-reproducibility

Jones, K., Bevan, G. et Monette, M. (2017). The Diniacopoulos ceramics display, Department of Classics – 2016 [Jeu de données].Borealis. https://doi.org/10.5683/SP/T7ZJAF

Lin, D., Crabtree, J., Dillo, I., Downs, R. R., Edmunds, R., Giaretta, D., De Giusti, M., L’Hours, H., Hugo, W., Jenkyns, R., Khodiyar, V., Martone, M. E., Mokrane, M., Navale, V., Petters, J., Sierman, B., Sokolova, D. V., Stockhause, M. et Westbrook, J. (2020) The TRUST Principles for digital repositories. Sci Data, 7, 144. https://doi.org/10.1038/s41597-020-0486-7

Patridge, E. F. et Bardyn, T. P. (2018). Research electronic data capture (REDCap). JMLA, 106(1), 142–144. https://doi.org/10.5195/jmla.2018.319

Pérez-Jvostov, F., Iron, K., Khair, S., Sahrakorpi, S. et Zhang, Q. (2021). Évaluation des besoins de la communauté de recherche: résumé des commentaires reçus. Alliance de recherche numérique du Canada. https://alliancecan.ca/sites/default/files/2022-04/EvaluationBesoins_Alliance_20220126.pdf

Public Library of Science. (2022, 29 mars). PLOS launches new feature to promote data sharing and access. The Official PLOS Blog. https://theplosblog.plos.org/2022/03/plos-launches-new-feature-to-promote-data-sharing-and-access/

Rieseberg, L., Warschefsky, E., O’Boyle, B., Taberlet, P., Ortiz-Barrientos, D., Kane, N. C. et Sibbett, B. (2021). Editorial 2021. Molecular Ecology, 30(1), 1-25. https://doi.org/10.1111/mec.15759

Stuart, D., Baynes, G., Hrynaszkiewicz, I., Allin, K., Penny, D., Lucraft, M. et Astell, M. (2018). Whitepaper: Practical challenges for researchers in data sharing. Figshare. https://doi.org/10.6084/m9.figshare.5975011

Tedersoo, L., Küngas, R., Oras, E., Köster, K., Eenmaa, H., Leijen, Ä., Pedaste, M., Raju, M., Astapova, A., Lukner, H., Kogermann, K. et Sepp, T. (2021). Data sharing practices and data availability upon request differ across scientific disciplines. Scientific data, 8, 192. https://doi.org/10.1038/s41597-021-00981-0

Vines, T. H., Andrew, R. L., Bock, D. G., Franklin, M. T., Gilbert, K. J., Kane, N. C., Moore, J-S., Moyers, B. T., Renaut, S., Rennison, D. J., Veen, T. et Yeaman, S. (2013), Mandated data archiving greatly improves access to research data. The FASEB Journal, 27(4), 1304-1308. https://doi.org/10.1096/fj.12-218164

Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., Gonzalez-Beltran, A., … Mons, B. (2016). The FAIR guiding principles for scientific data management and stewardship. Scientific data, 3, 160018. https://doi.org/10.1038/sdata.2016.18

À propos des auteurs

Meghan Goodchild est la bibliothécaire responsable de la gestion des données de recherche à l’Université Queen’s et à Scholars Portal, un service du Ontario Council of University Libraries. À la bibliothèque de l’Université Queen’s, Meghan est la principale personne-ressource pour la gestion des données de recherche et collabore avec les partenaires du campus afin d’améliorer les processus de travail et les services à l’appui au cycle de vie des données de recherche. À Scholars Portal, Meghan dirige l’équipe qui soutient Borealis, le dépôt Dataverse canadien. Elle est titulaire d’un doctorat en théorie de la musique et d’une maîtrise en sciences de l’information de l’Université McGill.

Shahira Khair (elle/elle) est bibliothécaire aux bibliothèques de l’Université de Victoria (UVic), responsable de l’analyse organisationnelle et de la gestion des données. Avant de rejoindre l’UVic, elle a travaillé avec des organisations nationales qui font progresser les initiatives numériques dans le domaine de la recherche et de l’enseignement supérieur, notamment l’Association des bibliothèques de recherche du Canada et l’Alliance de recherche numérique du Canada. Elle est titulaire d’une maîtrise en biologie et d’une maîtrise en sciences de l’information de l’Université d’Ottawa.

Amber Leahey est bibliothécaire de données et des systèmes d’information géographique (SIG) ainsi que directrice des services pour Borealis, le dépôt Dataverse canadien, un dépôt de données national sécurisé et bilingue fourni en partenariat avec les bibliothèques universitaires et les établissements de recherche à travers le Canada. Dans son rôle, elle soutient les bibliothèques, les établissements et les chercheuses et chercheurs dans la gestion, le partage, la préservation et la réutilisation des données grâce au développement continu des services de soutien en lien avec les données et la recherche à Scholars Portal et aux bibliothèques de l’Université de Toronto. Elle est titulaire d’une maîtrise en bibliothéconomie et en sciences de l’information de l’Université de Toronto.

Kaitlin Newson est consultante en recherche numérique auprès d’ACENET à l’Université de l’Île-du-Prince-Édouard. Auparavant, Kaitlin était bibliothécaire de projets numériques au sein de Scholars Portal, un service du Ontario Council of University Libraries, où elle soutenait l’infrastructure numérique pour la gestion des données de recherche, l’édition savante et les services de stockage infonuagique pour les bibliothèques universitaires canadiennes. Elle est titulaire d’une maîtrise en information de l’Université de Toronto.

Lee Wilson est directeur de la gestion des données de recherche (GDR) à l’Alliance de recherche numérique du Canada (l’Alliance). À ce titre, Lee supervise l’équipe nationale de gestion des données de recherche de l’Alliance ainsi que la fourniture et le développement de services dans le cadre de partenariats avec divers établissements et organisations canadiennes. Auparavant, Lee a occupé le poste de gestionnaire des plateformes et services de GDR à l’Alliance, a travaillé comme consultant en recherche pour la gestion des données au Canada atlantique avec ACENET et a fait partie de l’équipe de gestion des données pour le Marine Environmental Observation Prediction and Response Network, soutenant les chercheuses et chercheurs qui travaillaient avec des données océaniques. Il est titulaire d’une maîtrise en bibliothéconomie et en sciences de l’information de l’Université de Dalhousie.

Licence

Symbole de License Creative Commons Attribution - Pas d’utilisation commerciale 4.0 International

La gestion des données de recherche dans le contexte canadien Droit d'auteur © 2023 par Sous la direction de Kristi Thompson; Elizabeth Hill; Emily Carlisle-Johnston; Danielle Dennie; et Émilie Fortin est sous licence License Creative Commons Attribution - Pas d’utilisation commerciale 4.0 International, sauf indication contraire.

Identificateur d’objets numériques (DOI)

https://doi.org/10.5206/EIXU2154

Introduction

Politiques et pratiques au Canada

Organismes de financement de la recherche

Politiques des organismes de financement

Locales et régionales

Nationales

Internationales

Autres politiques et pratiques

Infrastructure, outils et services

Dépôts de données canadiens

Services de soutien

Étude de cas 1 : mettre sur pied un service et une communauté de dépôt de type Dataverse au Canada

Contexte

Analyse

Discussion

Éléments à prendre en considération pour le partage de données

Étude de cas 2 : humanités numériques

Contexte

Analyse

Discussion

Étude de cas 3 : partage de données sensibles

Contexte

Analyse

Discussion/conclusions

Étude de cas 4 : soutenir les grands producteurs de données au Canada – SuperDARN et le Dépôt fédéré de données de recherche (DFDR)

Contexte

Analyse

Discussion/conclusions

Format

Curation

Leçons tirées

L’avenir du partage de données au Canada

Accès et inclusion

Exemples

Plateformes de cycle de vie de la recherche

Exemples

Automatisation de la curation

Exemples

Intégration et interopérabilité

Exemples

Conclusion

Lectures et ressources supplémentaires

Bibliographie

À propos des auteurs

Licence

Identificateur d’objets numériques (DOI)

Partagez ce livre