Méthodes de travail avec les données de recherche
12 Planification de la gestion des données pour les processus de travail en science ouverte
Felicity Tayler; Mélanie Brunet; Kathleen Gregory; Lina Harper; et Stefanie Haustein
Objectifs d’apprentissage
À la fin de ce chapitre, vous pourrez :
- Décrire la science ouverte comme un mouvement comprenant le partage et la réutilisation des données en tant que pratiques exemplaires.
- Énoncer vos propres motivations axées sur la recherche en ce qui a trait au partage et à la citation des données.
- Rédiger un plan de gestion des données qui décrit une approche de science ouverte pour des méthodes mixtes en sciences sociales.
- Établir un lien entre les plans de gestion des données et leur relation avec les organismes de financement nationaux dans le contexte canadien et international.
- Comprendre le concept de propriété intellectuelle relativement aux options d’attribution de licences de données ouvertes.
Évaluation préliminaire
Introduction
Ce chapitre aborde le sujet d’actualité de la science ouverte du point de vue de la gestion des données de recherche (GDR) en appui aux données ouvertes en sciences sociales et dans des contextes disciplinaires connexes. Nous présenterons un exemple de plan de gestion de données (PGD) à méthodologie mixte (qualitative et quantitative) pour vous aider à planifier un flux de travail en science ouverte. D’autres sujets font écho à ceux abordés dans d’autres chapitres de ce manuel, car les processus de travail en science ouverte et la GDR aux fins de partage et de réutilisation des données sont étroitement liés. À la conclusion de ce chapitre, il sera question de la propriété intellectuelle en ce qui a trait à la définition de la propriété des données, du droit d’auteur, de l’octroi de licences et de permissions, autant d’éléments qui ont une incidence sur la pratique des données ouvertes et des processus de travail en science ouverte.
Le PGD présenté en tant qu’étude de cas est issu d’un exemple réel du projet de recherche Meaningful Data Counts (MDC) dont les chercheuses principales proviennent de l’Université d’Ottawa et de l’Université de Kiel, en Allemagne. Ce partenariat international a pour but d’améliorer la compréhension du rôle des jeux de données dans la communication scientifique. Le projet génère des données empiriques sur les pratiques de données ouvertes, notamment la réutilisation et la citation des données de recherche. Voilà des éléments qui sont essentiels à l’élaboration d’indicateurs significatifs d’impact des données et à la valorisation des données de recherche à titre de résultats scientifiques de premier ordre. Le projet MDC nous renseigne sur les motivations et les comportements en matière de partage de données. L’approche à méthodes mixtes de la recherche constitue une étude de cas utile pour illustrer, concrètement, ce à quoi ressemble un flux de travail de recherche en science ouverte dans un PGD. Ce dernier a été partagé en tant que modèle intégré dans l’Assistant PGD de l’Alliance de recherche numérique du Canada (l’Alliance). L’Assistant PGD est un outil gratuit en ligne mis à la disposition des chercheuses et chercheurs qui aide à la création d’un PGD sur la base de questions élémentaires en gestion de données appuyées par des pratiques exemplaires et des exemples.
Souvent, une chercheuse ou un chercheur décidera de partager ses données ou de participer aux pratiques de la science ouverte en fonction des normes disciplinaires. Ce chapitre se concentre sur les processus de travail en science ouverte et le partage de données en sciences sociales et dans des domaines connexes. Ces principes et ces pratiques sont transférables à d’autres domaines qui travaillent avec des méthodes qualitatives et quantitatives. Toutefois, il est important de souligner que la science ouverte est définie différemment selon les contextes disciplinaires. Par exemple, le présent chapitre n’aborde pas de pratiques particulières au domaine biomédical, comme l’enregistrement à des essais cliniques, les revues systématiques ou d’autres types d’études (exigeant un enregistrement) et le recours à des lignes directrices de documentation.[1]
Avant de passer à l’étude de cas donnée en exemple et aux pratiques exemplaires pour les processus de travail en science ouverte utilisant une approche de méthodologie mixte (quantitative et qualitative), définissons quelques expressions. La dernière section de ce chapitre traite des éléments à prendre en considération en matière de propriété intellectuelle, pratiques éthiques essentielles au travail avec des données ouvertes.
Qu’est-ce que la science ouverte?
Vous avez peut-être entendu l’expression science ouverte employée dans des contextes différents et parfois contradictoires puisqu’il y a abondance d’approches selon les professions, les politiques, les articles et les mandats. De nature générique, elle est comprise par des personnes différentes de manières différentes et les discussions sous-tendent des points de vue différents qui ont tous leurs propres hypothèses, buts et affirmations. À la lumière du projet de recherche MDC, qui nous sert d’étude de cas pour démontrer comment les pratiques exemplaires en gestion des données de recherche (GDR) peuvent soutenir un processus de travail en science ouverte, nous définissions la science ouverte du point de vue du scientifique, ou du professionnel, de la façon suivante: « le mouvement ayant pour but de rendre la recherche scientifique, les données et la diffusion accessibles à tous les niveaux d’une société curieuse[2] » [traduction] (FOSTER, s.d.-b). Cette définition est le fruit de FOSTER, un projet européen dédié à favoriser la mise en œuvre concrète de la science ouverte. Parce qu’il existe de très nombreuses manières d’y arriver, FOSTER adopte une approche taxonomiste pour cartographier un large champ d’activités et de résultats en lien avec ces pratiques. Par exemple, la pratique de la science ouverte comprend le libre accès aux publications, rend les données librement accessibles et réutilisables, a recours à des outils ouverts, participe à la science citoyenne et compte des méthodes ouvertes d’évaluation de la recherche.
La gamme complète d’activités possibles et de résultats en science ouverte est souvent réduite aux publications en libre accès. Toutefois, la science ouverte cherche à rendre l’entièreté du processus de recherche transparent et accessible – non seulement la publication finale! Qui plus est, l’importance des normes disciplinaires qui façonnent concrètement et de manière différente la manière de « faire » de la science ouverte est souvent négligée. Il s’agit là d’un problème, car des disciplines différentes disposent de normes différentes et de moyens différents pour rendre les publications ouvertes et pour partager les données. Les chercheuses et chercheurs réutilisent les données ouvertes à des fins variées. Les jeux de données existants peuvent servir à établir une nouvelle étude de cas, à enseigner des méthodes computationnelles en classe, à étalonner des instruments, à créer des modèles ou alimenter des algorithmes. C’est pourquoi les pratiques exemplaires en GDR recommandent aux chercheuses et chercheurs de verser les données dans un dépôt, car cette infrastructure est plus fiable sur le plan du stockage à long terme et de la gestion d’identifiants pérennes (p. ex., DOI) grâce auxquels d’autres personnes peuvent trouver puis citer les jeux de données. Toutefois, les chercheuses et chercheurs peuvent également partager les données par le biais de sites Web personnels, d’une personne à l’autre ou par l’entremise d’énoncés de disponibilité des données dans des articles.
Ce chapitre s’inspire d’une approche interdisciplinaire de méthodes mixtes pour le partage des données qui peut être utilisée dans de nombreux domaines d’études différents. Cependant, l’exploration de la science ouverte ne s’arrête pas là; il existe plusieurs autres moyens de mettre en application les pratiques ouvertes dans divers domaines d’études.
Que sont les données ouvertes?
FOSTER (s.d.-a) définit les données ouvertes de la façon suivante: « données en ligne, gratuites, accessibles, que l’on peut utiliser, réutiliser et distribuer pour autant que la source des données est indiquée[3] » [traduction]. L’accessibilité n’est qu’un des éléments de cette équation : les données doivent également être dans un format utilisable (Boulton et al., 2011, cité dans Fecher et Friesike, 2014). Les pratiques exemplaires en GDR permettent aux données ouvertes d’être utilisables par le biais des principes FAIR, abordées au chapitre 2, « Les principes FAIR et la gestion des données de recherche » (Wilkinson et al., 2016). Les données doivent être facilement trouvables, accessibles, interopérables et réutilisables, et ce, en mettant l’accent sur l’interopérabilité technologique. Rendre les données conformes aux principes FAIR n’est qu’une partie de la solution des pratiques exemplaires en GDR. Le partage et la réutilisation des données exigent, eux aussi, un contexte offert par des renseignements supplémentaires comme la documentation des données et les métadonnées.
Toutes les données ne peuvent pas être ouvertes. Les données avec des enjeux de confidentialité, comme les renseignements personnels, doivent demeurer restreintes. Les pratiques exemplaires en GDR mettent au premier plan toute une gamme d’approches en science ouverte tout en trouvant un équilibre entre les données « aussi ouvertes que possible, aussi fermées que nécessaire. »
Le partage et la réutilisation des données (ouvertes) sont des concepts importants en appui à la science ouverte, la préférence étant accordée aux données ouvertes lorsque les normes éthiques le permettent. Les avantages perçus du partage et de la réutilisation des données reflètent les avantages potentiels de la science ouverte : rendre la recherche plus reproductible et transparente afin d’économiser temps et argent et de réunir des données jusqu’alors isolées afin de former des combinaisons inédites. Les recommandations de l’UNESCO au chapitre de la science ouverte mettent en évidence son potentiel transformateur et son importance lorsqu’il est question de résoudre les problèmes actuels les plus difficiles comme les changements climatiques, les enjeux de santé, la pauvreté et les inégalités croissantes.
Les prochaines sections définissent l’étude de cas MDC et un modèle de plan de gestion des données (PGD). Il y est question de la mise en application des principes de science ouverte et de pratiques relatives à la documentation. Cette documentation, qui comprend un PGD, permet la collaboration entre personnes qui doivent comprendre les données et leur donner un sens afin qu’elles puissent être réutilisées adéquatement.
Étude de cas : le projet Meaningful Data Counts
Le projet de recherche MDC est une étude de cas utile en matière de pratiques exemplaires en gestion des données de recherche (GDR), car il étudie à la fois les pratiques de données ouvertes à travers les disciplines et met en pratique la science ouverte par le biais d’une approche de méthodes mixtes (quantitative et qualitative) en sciences sociales. La méthodologie incorpore de la bibliométrie, des réponses à un sondage et des entrevues.
Ce projet s’inscrit dans le cadre de l’initiative Make Data Count qui encourage l’adoption des pratiques de bases pour les mesures de données ouvertes: l’utilisation normalisée des données et des procédés de citation des données dans les dépôts et chez les maisons d’édition. Le MDC présente des données probantes empiriques sur le comportement en ce qui a trait à l’utilisation et à la citation des données afin d’améliorer la compréhension du rôle des jeux de données dans la communication scientifique. Les modèles de partage et de citation des données sont étudiés en fonction des disciplines universitaires et des étapes de la carrière des chercheuses et chercheurs. Le MDC s’attarde également à ce qui motive les chercheuses et chercheurs à partager ou à citer des jeux de données – ou à ne pas le faire. S’il existe une grande variété de pratiques en matière de citation des données, la plupart des personnes ayant répondu au sondage affirment qu’elles citaient les données pour appliquer des pratiques de recherche « idéales », comme la reconnaissance de la dette intellectuelle, l’aide à la localisation et à l’accès aux données et l’appui à la validité de leurs propres affirmations (Gregory et al., 2023). Inversement, les obstacles au partage de données comprennent la peur qu’éprouvent les chercheuses et chercheurs de se faire damer le pion, la crainte de voir leurs erreurs exposées au grand jour, la perception selon laquelle les efforts nécessaires pour préparer et publier les jeux de données n’en valent pas le coup et la croyance que le partage des données ne s’applique pas à leur recherche (Tenopir et al., 2020).
Le projet MDC met en œuvre le processus de travail en science ouverte afin de soulever les défis que doivent relever les membres d’équipe qui participent à des pratiques de science ouverte, notamment le partage et la citation de données de recherche. Par le partage des plans de recherche, des processus, du code, des résultats préliminaires et des données, un processus de travail en science ouverte tente, autant que possible, de rendre le déroulement de la recherche transparent aux personnes extérieures à l’équipe de recherche initiale.
Un élément clé de la pratique en science ouverte du MDC est l’élaboration d’un plan de gestion des données (PGD) avec la bibliothécaire en GDR de l’Université d’Ottawa; ce plan est un modèle de PGD endossé par l’Alliance. Comme vous l’avez vu au chapitre 1, « Les rudiments, » un PDG est un document qui décrit comment les données d’un projet de recherche seront manipulées, de la collecte à l’analyse puis comment elles seront traitées à la fin du projet. Les PGD sont des documents dynamiques qui peuvent être mis à jour tout au long de la vie du projet; cette approche itérative s’harmonise bien avec l’objectif de partage éthique des données. Les pratiques exemplaires en GDR sont essentielles aux universitaires qui adoptent la science ouverte et, de plus en plus, elles sont exigées pour en atteindre les objectifs (Tenopir et al., 2020). La Politique des trois organismes sur la gestion des données de recherche, par exemple, soutient les principes directeurs FAIR (facile à trouver, accessible, interopérable et réutilisable) pour la gestion et l’intendance des données de recherche. Les trois organismes fédéraux de financement de la recherche (IRSC, CRSNG et CRSH) intègrent le partage des données à leur processus de demande de subvention (dans la section « Mobilisation des connaissances »). Il est attendu que, pour obtenir du financement, les futures demandes de subvention devront être accompagnées d’un PGD bien défini.
Le PGD de MDC décrit la manière dont le projet gère divers types de données recueillies et analysées par l’équipe de recherche. Le PGD est une des méthodes qu’emploie l’équipe pour documenter le processus de travail du projet afin de communiquer les protocoles en matière d’éthique, le transfert de fichiers et les procédures de stockage, les normes relatives aux métadonnées et le code informatique avec les membres de l’équipe qui travaillent à distance. Anton Ninkov, un postdoctorant membre de l’équipe de recherche responsable de gérer les données, a mentionné que la documentation du processus de travail s’apparente « à réfléchir au projet comme étant quelque chose de plus large qu’une tâche individuelle. Il s’agit du fonctionnement du projet dans son ensemble – son travail n’en est qu’une partie[4] » [traduction] (communication personnelle, 15 février, 2022).
Les jeux de données de MDC comprennent l’analyse bibliographique des pratiques de citation de données dans un corpus composé de 8 643 593 jeux de données dans DataCite (Ninkov et al., 2022), de réponses au sondage provenant de plus de 2500 chercheuses et chercheurs qui ont réfléchi aux pratiques relatives au partage et à la citation des données dans diverses disciplines et entrevues semi-structurées qui donnent davantage d’information sur ce qui les motive à partager et à citer les données – ou à ne pas le faire. Le PGD abordé à la section suivante présente la gestion de tous les jeux de données générés à la suite d’analyses bibliométriques, de sondages et d’entrevues; le but est de partager les données avec une licence ouverte tout au long du cycle de vie du projet, et non seulement au moment de la publication.
Pratiques exemplaires pour un plan de gestion des données en appui à un processus de travail en science ouverte
Un PGD constitue une excellente occasion de mettre l’accent sur les pratiques de la science ouverte, comme le partage et la réutilisation des données; il peut également soutenir d’autres éléments d’un processus de travail de science ouverte. Lorsque les processus sont reliés par votre PGD à d’autres éléments de votre projet de recherche, vous rendez votre recherche accessible à diverses étapes du projet. De plus, les données qui étayent les résultats de la recherche présentés dans une publication sont transparentes et réplicables tout au long du processus – non seulement en fin de parcours. Plusieurs chercheuses et chercheurs se concentrent sur l’aspect de planification d’un PGD; un document est rédigé au début du projet puis ignoré. Toutefois, la recherche est rarement linéaire et les plans doivent souvent changer. La création de versions subséquentes peut s’avérer incroyablement utile afin de planifier le projet et de répertorier l’évolution du processus de recherche.
- La science ouverte met l’accent sur le partage et la réutilisation des données tout au long des projets de recherche, non seulement à l’étape finale (publication);
- Les processus de travail en science ouverte peuvent servir dans d’innombrables méthodes de recherche : méthodes mixtes, quantitatives et qualitatives, dans toutes les disciplines;
- Les versions mises à jour de votre PGD rendent compte de l’évolution de vos méthodes de recherche et de vos processus de travail.
Les pratiques en science ouverte de MDC ont mis de l’avant l’élaboration d’un plan de gestion des données exhaustif. La première version du plan, créée au début du projet, décrit comment une équipe de chercheuses et chercheurs originaires de plusieurs pays gérera divers types de données recueillies à l’aide de méthodes mixtes (qualitatives et quantitatives). Les PGD sont des documents dynamiques et l’équipe de MDC a récemment mis à jour le sien, conformément aux pratiques exemplaires en science ouverte, dont celle de l’examen régulier de la documentation des données et la confirmation qu’elles reflètent adéquatement les méthodes de recherche et les processus de gestion des données dont se sert l’équipe de recherche. La version 2 du PGD est versée dans le même dépôt.
La révision du PGD a aidé à la gestion efficace du projet. Stefanie Haustein, chercheuse principale, a constaté qu’en fin de compte, « certaines sections décrites dans le modèle de l’Assistant PGD ne s’appliquaient pas à son projet de recherche[5] » [traduction] (communication personnelle, 15 février, 2022). Le modèle utilisé en 2022 demandait aux chercheuses et chercheurs d’aborder la question de la préservation à long terme; toutefois, Mme Haustein remarque que « cette question n’est plus pertinente, car nous supposons que la technologie comme les interfaces de programmation (API) et la pertinence des données auront beaucoup évolué d’ici 20 ans[6] » [traduction] (communication personnelle, 15 février 2022). L’examen du PGD a favorisé une révision du processus de travail de l’équipe de recherche, notamment le travail des membres qui se sont joints à l’équipe après la publication de la première version du plan. Des changements avaient été apportés en matière de collecte et de traitement des données et il fallait que la documentation en rende compte. Il est important de coucher sur papier ces processus de travail méthodologiques dans le cadre de pratiques exemplaires en science ouverte, car pour comprendre et reproduire les données partagées, les membres extérieurs à l’équipe doivent disposer d’un certain contexte quant à la manière dont les données ont été collectées, structurées et analysées.
Les deux versions du PGD ont été créées à l’aide de l’outil recommandé par l’Alliance, l’Assistant PGD, en collaboration avec la bibliothécaire en GDR de l’Université d’Ottawa. L’équipe a également contribué à l’élaboration d’un modèle dans l’Assistant PGD en ce qui a trait aux processus de travail en science ouverte. Le modèle guide les équipes de recherche dans le choix des pratiques exemplaires qu’elles devraient inclure dans les PGD exigés par les organismes subventionnaires. Le PGD de MDC a été examiné par des pairs, publié puis diffusé en tant qu’exemple national de pratique exemplaire en rédaction d’un PGD pour un processus de travail en science ouverte, une approche à méthodes mixtes et un partenariat de recherche international. Toutes les ressources de formation créées par l’Alliance sont sous licence CC BY-NC 4.0. Vous pouvez les partager et les adapter gratuitement selon vos besoins.
Cette section définit certaines des pratiques exemplaires incluses dans le PGD de MDC afin de documenter les processus et de favoriser la collaboration entre les membres de l’équipe ou avec d’autres personnes qui doivent comprendre les données et les doter de sens afin qu’elles puissent être réutilisées adéquatement. Cette liste n’est pas exhaustive; par conséquent, nous vous encourageons à consulter les sections « Guidance » de l’exemple de PGD pour obtenir plus d’informations.
Responsabilité et ressources
- Attribuez suffisamment de ressources humaines aux responsabilités d’intendance des données dans votre budget avant d’entamer la collecte de données. Habituellement, la chercheuse ou le chercheur principal est responsable de maintenir les normes d’accessibilité des données pour l’équipe. Affectez des gens à la structuration des données, à leur documentation et à la réponse aux questions portant sur l’accès à l’information et l’octroi d’un accès aux données;
- Créez un document d’intégration pour faire en sorte que tous les membres de l’équipe adhèrent aux mêmes processus de travail. Structures de fichiers logiques, conventions de nommage informatives et indications claires de la version des fichiers – autant d’éléments qui permettent une meilleure utilisation des données pendant et après le projet de recherche. Le recours à une feuille de travail pour la convention de nommage des fichiers peut s’avérer très utile;
- Documentez votre processus et révisez votre PGD, le cas échéant. Consultez régulièrement les membres de l’équipe pour saisir les éventuels changements apportés à la collecte, au traitement et à la publication des données qui doivent être reflétés dans la documentation.
Documentation et métadonnées
- Documentez les processus de travail à l’aide d’un fichier LISEZ-MOI qui accompagne tous les jeux de données. Une bonne documentation des données comprend de l’information au sujet de l’étude, une description des données et de tout autre renseignement contextuel nécessaire pour que d’autres chercheuses ou chercheurs puissent se servir des données;
- Utilisez des formats de fichier ouverts ou conformes aux normes de l’industrie (p. ex., celles utilisées couramment par la communauté) dans la mesure du possible;
- Utilisez des schémas de métadonnées spécifiques aux jeux de données ouvertes ou toute autre norme de métadonnée particulière au domaine. La documentation des jeux de données devrait être en format ouvert et lisible par machine afin de permettre un échange efficace d’information entre les systèmes et les personnes qui les utilisent. DataCite a créé un ensemble de champs de métadonnées essentiels et des instructions pour rendre les jeux de données faciles à identifier et à citer.
Éthique et conformité légale
- Les processus de travail en science ouverte priorisent d’être « aussi ouverts que possible, aussi fermés que nécessaire ». Réfléchissez aux types de données qui doivent être partagés afin de satisfaire aux exigences des établissements ou des organismes subventionnaires et aux données dont l’accès devrait être limité en fonction d’enjeux liés à la confidentialité, à la vie privée ou à la propriété intellectuelle tels que décrits dans votre protocole éthique;
- Demandez le consentement adéquat auprès des participantes et participants afin que leurs données puissent être partagées. Votre énoncé de consentement éclairé peut préciser certaines conditions clarifiant l’utilisation des données. Informez les personnes participant à vos études si vous avez l’intention de publier une version anonymisée et dépersonnalisée des données recueillies et faites en sorte qu’elles acceptent ces modalités;
- Utilisez des licences ouvertes (p. ex., CC BY) pour favoriser le partage et la réutilisation des données. Les licences déterminent de quelles manières d’autres personnes peuvent utiliser vos données. Pensez à inclure une copie de votre licence d’utilisation dans votre PGD (sujet abordé plus loin).
Mobilisation des connaissances
- Aidez les gens à réutiliser et à citer vos données. Saviez-vous qu’un jeu de données constitue un résultat de recherche que vous pouvez ajouter à votre curriculum vitae, au même titre qu’un article scientifique? Si vous publiez vos données dans un dépôt de données (p. ex., Zenodo, Borealis, Dryad), d’autres personnes peuvent les trouver et s’en servir. Les identifiants numériques d’objets (DOI) uniques constituent un excellent moyen d’identifier et de citer des jeux de données;
- Servez-vous des médias sociaux, des bulletins d’information électroniques, des affiches, des conférences, des webinaires, des forums de discussions, ou des forums spécifiques à votre discipline pour mettre en lumière vos données publiées, promouvoir la transparence et encourager la découverte ainsi que la réutilisation des données. Citez vos jeux de données comme vous le faites avec d’autres types de publications.
Qu’est-ce qui constitue une donnée ouverte? Limites en matière de partage de données
L’étude de cas de MDC établit un lien entre le partage de données et les PGD, car ils fonctionnent de concert en appui aux pratiques de science ouverte à l’échelle d’un projet de recherche. Cette section aborde les modalités légales et contractuelles qui permettent ou limitent le partage et la réutilisation des données alors qu’elles circulent dans les infrastructures numériques. Après un aperçu des éléments à prendre en considération en matière de confidentialité dans le cadre du projet de MDC, cette section se concentrera sur la propriété intellectuelle au moment de déterminer la propriété des données et le partage des données de recherche[7]. Alors que la discussion sur la propriété intellectuelle et les licences des données s’inscrit dans un contexte canadien, le PGD du MDC énonce clairement comment l’accès aux données sensibles sera limité dans le cadre d’un projet de recherche international. Il définit également comment les données qui ont été anonymisées seront partagées à l’aide d’une licence ouverte, ce qui permettra la réutilisation du jeu de données.
Une licence est une permission qu’octroie le titulaire du droit d’auteur à un tiers d’utiliser ses œuvres (dans ce cas, des données sous une forme ou une autre) à certaines fins et sous certaines conditions. Le droit d’auteur demeure avec son titulaire (Office de la propriété intellectuelle du Canada, 2019). Après avoir déterminé si les données sont protégées par des droits d’auteurs (et, le cas échéant, qui les détient et si elles peuvent être partagées), vous pouvez utiliser diverses licences ouvertes pour indiquer leur degré d’ouverture. Leur rôle est double : informer les personnes qui utiliseront les données des droits conservés par les titulaires des droits d’auteur et indiquer comment utiliser les œuvres sans devoir demander aux titulaires la permission à chaque occurrence. La propriété des droits d’auteur ne change pas. La licence ouverte indique simplement que le titulaire des droits d’auteur libère son œuvre de certaines des limites habituelles pour que vous puissiez la partager, la remixer et la réutiliser en toute légalité, tant et aussi longtemps que vous respectez les conditions de la licence. Plusieurs dépôts permettent de sélectionner facilement une licence ouverte et ajoutent l’information dans les métadonnées.
Si le partage des données constitue la pierre angulaire de la science ouverte, il n’est peut-être pas toujours conseillé, sécuritaire ou même légal de le faire. Les pratiques exemplaires en science ouverte accordent la priorité au respect des limites de nature éthique et légale en matière d’accès aux données pour équilibrer les objectifs plus larges de partage, de publication et de réutilisation des données. Afin de respecter ces pratiques exemplaires, vous devrez prendre en considération quels sont les types de données qui doivent être partagées afin de satisfaire aux exigences provenant des établissements ou des organismes subventionnaires et quelles types de données doivent avoir un accès restreint en raison d’éléments relatifs à la confidentialité, à la vie privée ou à la propriété intellectuelle énoncés dans votre protocole d’éthique. En effet, avant de rendre des données publiques et ouvertes, il est essentiel que vous déterminiez si vous pouvez le faire de manière éthique et en toute légalité. La sécurité et la vie privée des participantes et participants, la souveraineté des données autochtones et la nature confidentielle ou propriétaire des données peuvent limiter votre capacité à les partager. Vous devez également vérifier le statut des droits d’auteur en ce qui a trait à la propriété des données.
Dans notre étude de cas, le PGD de MDC indique que toutes les données et publications finales seront publiées en accès libre. Pour y arriver, le partenariat international multiétablissements doit également se conformer aux politiques de GDR de ses établissements hôtes, lesquels prennent en considération la législation pertinente, les normes de l’industrie et les pratiques exemplaires. En particulier, les processus de travail des données tiendront compte des éléments juridiques et éthiques de l’Université d’Ottawa et de l’Énoncé de politique des trois conseils : Éthique de la recherche avec des êtres humains – EPTC 2 (2022); toutefois, ils peuvent également se référer à la politique sur l’intégrité et l’éthique en recherche de l’Université de Kiel si l’ETPC 2 n’offre pas suffisamment d’orientations. La cochercheuse est affiliée à des établissements européens. Par conséquent, les méthodes de recherche doivent se conformer au Règlement général sur la protection des données (RGPD) de l’UE, lequel est plus limitatif que ses équivalents canadiens.
L’équipe de recherche a stocké les données sensibles sur un serveur sécurisé au Canada. Seules les chercheuses principales ont accès à la totalité du projet. Les autres membres de l’équipe avaient un accès limité lorsqu’ils travaillaient à la collecte des données et à l’anonymisation des données sensibles. La collecte de données qualitatives et personnelles a respecté l’approbation formelle en matière d’éthique du comité d’éthique de la recherche de l’Université d’Ottawa qui demandait d’obtenir le consentement explicite et éclairé des personnes participantes en utilisant le Recommended Informed Consent Language for Data Sharing (ICPSR, s.d.). Les médias sociaux et autres données en ligne publiques ont été recueillies et gérées en fonction du document Internet Research: Ethical Guidelines 3.0 de l’Association of Internet Researchers (franzke et al., 2019). Toute donnée jugée sensible est stockée en sécurité avec mot de passe et chiffrement. Les données sont anonymisées dans les publications découlant du projet, sauf entente explicite de les publier autrement. Une fois les données anonymisées, elles peuvent être partagées sous forme de données ouvertes avec une licence Creative Commons Attribution (CC BY) 4.0 International. Si ce n’est pas possible, l’équipe peut choisir une licence plus restrictive, Creative Commons Attribution – Pas de Modification (CC BY-ND).
Puis-je partager les données? Définir la propriété des données
Vous vous demandez peut-être pourquoi l’équipe de recherche doit attribuer une licence à ses données pour les rendre ouvertes. Les données sont-elles même protégées par des droits d’auteur? Parce que les droits d’auteur protègent l’expression originale des idées ou des faits fixés sur un support tangible, il est facile de conclure que les données sont des faits et donc non protégées. En effet, de manière générale, les données brutes ou factuelles sont des données non interprétées qui ne sont pas protégées par le droit d’auteur. Toutefois, une compilation de données peut être protégée en raison du jugement, de la compétence ou de l’effort nécessaire pour déterminer les données à inclure et leur organisation (faisant des données une « expression originale »). De plus, si les données sont de nature littéraire, musicale, dramatique ou artistique, elles peuvent être protégées par le droit d’auteur. Le tableau 1 ci-dessous résume les types de données susceptibles d’être protégées par le droit d’auteur.
Non protégées par le droit d’auteur | Peuvent être protégées par le droit d’auteur |
Donnée individuelle ou brute (c’est-à-dire, un chiffre ou une mesure) | Représentations de données (p. ex., tableaux et graphiques) |
Jeux de données | |
Compilations de données | |
Bases de données | |
Données achetées (sous conditions d’utilisation) | |
Œuvres littéraires, musicales, dramatiques ou artistiques (p. ex., photos) |
Si les données sont protégées par le droit d’auteur, qui est le propriétaire? Si vous possédez des données générées ou fournies par un tiers, même si elles sont accessibles gratuitement, cela ne signifie pas que vous possédez un droit d’auteur sur elles. Vérifiez toujours s’il y a une licence ou lisez les modalités d’utilisation. Le tableau 2 résume la propriété des droits d’auteur selon les types de données.
Données primaires | Données recueillies pour vos propres fins à partir d’expériences ou de recherches que vous avez menées et que vous avez fixées sur un support tangible. |
Si des droits d’auteur existent, vous en êtes probablement le titulaire. Toutefois, vous devriez vérifier les ententes ou les contrats en lien avec votre projet de recherche. | |
Données secondaires | Données recueillies à d’autres fins à partir d’expériences ou de recherches menées par d’autres. |
S’il existe un droit d’auteur, il est probablement détenu par d’autres. | |
Données tertiaires | Synthèse de données issues d’expériences ou de recherche menées par d’autres. |
Articles, rapports, etc. rédigés par d’autres et dont vous ne détenez pas le droit d’auteur. |
Plusieurs facteurs extérieurs à votre équipe de recherche ou à votre projet peuvent déterminer si des données sont protégées par le droit d’auteur et qui détient celui-ci.
- Des politiques ou des ententes contractuelles entre chercheuses ou chercheurs et établissements affiliés (p. ex., contrats d’embauche, conventions collectives);
- Des conventions ou des pratiques disciplinaires en matière d’attribution de paternité;
- Des politiques de l’agence ou de l’organisme qui finance la recherche (en partie ou en totalité);
- Des conditions ou des modalités d’utilisation de licence de données achetées – le fait d’acquérir des données auprès d’un tiers ne signifie pas que les droits d’auteur vous ont été transférés ou que vous êtes autorisé à partager les données.
Toutes les parties prenantes impliquées dans un projet de recherche devraient préciser les questions relatives aux données et au droit d’auteur en début de processus. Les statuts divers, qui se chevauchent parfois, des personnes qui collectent les données ou des membres de l’équipe de recherche, même au sein d’un établissement ou d’un organisme, constituent des facteurs importants pour déterminer qui détient les droits d’auteur des données de recherche. Il est vital de préciser la propriété des droits d’auteur, car les données protégées ne peuvent pas être davantage « ouvertes » sans la permission du détenteur des droits.
Il existe trois types principaux de licences ouvertes pour les données :
- Licences Creative Commons
- Licences Open Data Commons
- Licences du logiciel
Deux désignations Creative Commons sont utilisées fréquemment pour les données. Elles servent d’options dans les dépôts de données.
- CC BY 4.0 (licence Creative Commons Attribution 4.0 International) : cette licence exige que l’autrice ou l’auteur soit crédité;
- CC0 (domaine public) : elle sert à indiquer que le titulaire des droits d’auteur renonce à ses droits sur l’œuvre. Lorsque les données sont du domaine public, il n’y a plus de restrictions quant à leur utilisation ni à leur attribution. Certains dépôts de données, comme Borealis, proposent cette licence par défaut.
Pour des données sous forme de base de données, les licences Creative Commons s’appliquent à la fois au contenu de la base de données et à la base de données elle-même. Creative Commons ne recommande pas le recours aux conditions « Pas d’utilisation commerciale » (NC) ou « Pas de modification » (ND) pour les données, car elles limitent grandement l’utilisation à des fins savantes et scientifiques[8]. Bien que nous ne recommandions pas de limiter la réutilisation des données à des fins non commerciales, vous pouvez appliquer une licence Creative Commons Attribution – Pas d’utilisation commerciale. Toutefois, il est important de souligner que cette condition s’applique généralement à l’utilisation et non à la personne qui utilise. En principe, elle ne préviendrait pas une entité commerciale d’utiliser les données si elle ne les revend pas ou si elle ne les utilise pas comme élément de base pour un produit ou service vendu à des fins profitables.
La Open Knowledge Foundation offre trois licences ouvertes dédiées aux bases de données, bien qu’elles ne soient pas disponibles dans tous les dépôts de données.
- ODbL 1.0 (Open Data Commons Open Database License)
- ODC-BY 1.0 (Open Data Commons Attribution License)
- PDDL 1.0 (Open Data Commons Public Domain Dedication and License)
Veuillez noter que les licences Open Data Commons s’appliquent aux bases de données uniquement et non pas au contenu d’une base de données.
Les licences de logiciel sont parmi les premières licences ouvertes; elles sont également utilisées dans les dépôts de données. Elles peuvent s’appliquer au logiciel ou au code en plus d’être associées aux fichiers de documentation connexes.
Le tableau 3 ci-dessous compare les trois types de licences en fonction de ce qu’elles permettent et de la nécessité de citer correctement la source, du point de vue d’une personne qui utilise des données sous licence (et non du point de vue de la personne qui les crée).
Licence* | Distribution | Modification | Octroi de sous-licence€ | Attribution |
© Tous droits réservés | Permission requise | Permission requise | Permission requise | Exigée |
CC BY | Permise | Permise | Permis | Exigée |
CC0 | Permise | Permise | Interdit | Non exigée |
ODbL | Permise | Permise | Interdit | Exigée |
ODC-BY | Permise | Permise | Interdit | Exigée |
PDDL | Permise | Permise | Permis | Non exigée |
MIT | Permise | Permise | Permis | Exigée |
GNU GPL | Permise | Permise | Permis | Exigée |
Apache | Permise | Permise | Permis | Exigée |
Tableau comparatif sous licence CC BY-SA 4.0, fondé sur l’article Comparison of Free and Open-Source Software licenses, Wikipedia, CC BY-SA 3.0.
* Les huit licences permettent une utilisation commerciale.
€ L’octroi d’une sous-licence indique que les dérivés peuvent être partagés sous une licence différente.
Conclusion
Ce chapitre porte sur la planification de la gestion des données en tant que pratique exemplaire en GDR qui peut appuyer les données ouvertes et le partage des données en tant que partie intégrante d’un processus de travail en science ouverte dans les sciences sociales et d’autres contextes disciplinaires connexes. Les chercheuses et chercheurs choisissent de rendre leurs données ouvertement accessibles pour diverses raisons, notamment pour que leurs travaux soient davantage cités; toutefois, le mouvement de la science ouverte a pour objectif de rendre la recherche plus facilement reproductible et transparente, d’économiser temps et argent et de réunir de manière novatrice des données jusque-là isolées. Par le biais du PGD dans l’étude de cas, Meaningful Data Counts, vous avez découvert la valeur d’un PGD dans le cadre global de planification de projets, sous l’angle des objectifs de la science ouverte. Le PGD permet une gestion conséquente et éthique de tous les jeux de données produits par plusieurs membres de l’équipe de recherche par le biais d’analyses bibliométriques, de sondages et d’entrevues. En outre, il fait en sorte que les données soient partagées tout au long du cycle de vie du projet, et non seulement au moment de publier les résultats de recherche. Les éléments clés du partage de données définis dans le PGD comprennent le dépôt de jeux de données dans un dépôt reconnu à l’aide d’une licence ouverte. L’octroi de licences ouvertes par MDC permet à d’autres chercheuses et chercheurs de réutiliser leurs travaux; grâce au dépôt de données, les chercheuses et chercheurs peuvent trouver les jeux de données et les citer adéquatement. La dernière section de ce chapitre aborde les éléments à prendre en considération en ce qui a trait à la confidentialité : avant de rendre les données ouvertes, vous devez vérifier si elles sont protégées par le droit d’auteur; le cas échéant, vous devez découvrir qui le détient. Lorsque vous avez confirmé qu’il est possible de partager les données ouvertement, le choix d’une licence ouverte qui permet les modifications favorise la réutilisation des données à des fins savantes et scientifiques. Toutes les données ne peuvent pas devenir des données ouvertes; cependant, si vous souhaitez adopter les principes du mouvement de science ouverte par le biais du partage de données et de versement dans des dépôts de données, un PGD vous aidera à normaliser et à communiquer les étapes à suivre aux membres de l’équipe et à la communauté disciplinaire élargie.
Questions de réflexion
Éléments clés à retenir
- La science ouverte est un mouvement visant à rendre la recherche scientifique, les données et les publications accessibles par le biais du libre accès. Elle soutient l’ouverture des données et leur réutilisation avec des outils ouverts, la participation à la science citoyenne et l’accès à des méthodes ouvertes pour évaluer la recherche.
- Les motivations des chercheuses et chercheurs pour partager les données et les citer reposent souvent sur des normes disciplinaires; toutefois, les chercheuses et chercheurs qui publient et citent des données participent à un processus de valorisation des données en tant que résultat de recherche de premier ordre au statut équivalent à celui d’autres résultats de recherche.
- La création d’un plan de gestion des données (PGD) avec un processus de travail en science ouverte est un excellent moyen de satisfaire aux exigences des organismes de financement en ce qui a trait à la gestion efficace des données de recherche d’un projet avec pour objectif de permettre un partage de données éthique.
- Lorsque vous liez les processus de travail documentés de votre PGD à d’autres éléments de votre projet de recherche, vous faites en sorte que votre recherche sera partagée à grande échelle à différentes étapes du projet et que les données sous-jacentes aux résultats de la recherche rapportées dans une publication sont transparentes et réplicables d’un bout à l’autre du projet (et non seulement à sa conclusion).
- Les PGD sont des documents vivants. Il peut s’avérer utile de les revoir et de les mettre à jour tout au long du projet. La création de versions subséquentes peut aider à répertorier l’évolution de votre processus de recherche.
- En plus de considérations éthiques, avant de rendre les données ouvertes, il faut préciser l’existence et la propriété des droits d’auteur; le cas échéant, obtenez la permission de verser les données dans un dépôt ouvert.
- Après avoir confirmé qu’il est possible de partager les données ouvertement, choisissez une licence ouverte qui permet d’apporter des modifications autant que possible : une condition « Pas de modification » limite grandement son utilisation à des fins savantes et scientifiques ainsi que les avantages de rendre les données ouvertes.
Bibliographie
Brunet, M., Hatherill J. et Ripp, C. (2021). Libre accès aux connaissances Partie 2 : Partagez vos données de recherche. Bibliothèque de l’Université d’Ottawa. http://hdl.handle.net/10393/43308
Brunet, M. et Rouleau, T. (2021). Droit d’auteur et données de recherche à l’Université d’Ottawa : Questions fréquemment posées, Bibliothèque de l’Université d’Ottawa. https://www.uottawa.ca/library/sites/g/files/bhrskd381/files/2022-12/droit_dauteur_et_donnees_de_recherche_faq.pdf
Cobey, K. D., Haustein, S., Brehaut, J. Dirnagl, U., Franzen, D. L., Hemkens, L. G., Presseau, J., Riedel, N., Strech, D., Alperin J. P., Costas, R., Sena, E. S., van Leeuwen, T., Ardern, C. L., Bacellar I. O. L, Camack, N., Correa, M. B., Buccione, R., Cenci, M. S., … Moher, D. (2022). Establishing a core set of open science practices in biomedicine: A modified Delphi study. medRxiv. https://doi.org/10.1101/2022.06.27.22276964
Fecher, B. et Friesike, S. (2014). Open science: One term, five schools of thought. Dans S. Bartling et S. Friesike (dir..), Opening Science: The evolving guide on how the Internet is changing research, collaboration and scholarly publishing (p. 17–47). Springer. https://doi.org/10.1007/978-3-319-00026-8_2
FOSTER. (s.d.-a). Open Data. https://www.fosteropenscience.eu/taxonomy/term/6
FOSTER. (s.d.-b). Open Science. https://www.fosteropenscience.eu/taxonomy/term/7
franzke, a. s., Bechmann, A., Zimmer, M., Ess, C. et Association of Internet Researchers (2020). Internet Research: Ethical Guidelines 3.0. https://aoir.org/reports/ethics3.pdf
Gregory, K., Ninkov, A. B., Ripp, C., Roblin, E. Peters, I. et Haustein, S. (2023). Tracing data: A survey investigating disciplinary differences in data citation. Zenodo. https://doi.org/10.5281/zenodo.7555266
ICPSR. (s.d.) Recommended Informed Consent Language for Data Sharing. https://www.icpsr.umich.edu/web/pages/datamanagement/confidentiality/conf-language.html
Ninkov, A., Gregory, K., Ripp. C., Morissette, E., Harper, L., Peters, I., Tayler, F. et Haustein, S. (2022). Research data management plan for the meaningful data counts project (v.2). Zenodo. https://doi.org/10.5281/zenodo.6473351
Office de la propriété intellectuelle du Canada (OPIC). (2019). Le guide du droit d’auteur. Gouvernement du Canada. https://ised-isde.canada.ca/site/office-propriete-intellectuelle-canada/fr/guide-droit-dauteur
Tenopir C., Rice, N.M., Allard, S., Baird, L., Borycz, J., Christian, L., Grant, B., Olendorf, R. et Sandusky, R.J. (2020). Data sharing, management, use, and reuse: Practices and perceptions of scientists worldwide. PLOS ONE, 15(3): e0229003. https://doi.org/10.1371/journal.pone.0229003
Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. https://doi.org/10.1038/sdata.2016.18
- Une étude Delphi a identifié 19 pratiques de science ouverte dans le domaine biomédical. Les autrices tiennent à remercier David Moher du Centre for Journalology de l’Institut de recherche de L’Hôpital d’Ottawa pour les conversations entretenues au sujet des pratiques en science ouverte dans plusieurs disciplines. Cobey, K. D., Haustein, S., Brehaut, J. Dirnagl, U., Franzen, D. L., Hemkens, L. G., Presseau, J., Riedel, N., Strech, D., Alperin J. P., Costas, R., Sena, E. S., van Leeuwen, T., Ardern, C. L., Bacellar I. O. L, Camack, N., Correa, M. B., Buccione, R., Cenci, M. S., … Moher, D. (2022). Establishing a core set of open science practices in biomedicine: A modified Delphi study. medRxiv. https://doi.org/10.1101/2022.06.27.22276964 ↵
- "the movement to make scientific research, data and dissemination accessible to all levels of an inquiring society." ↵
- "online, free of cost, accessible data that can be used, reused and distributed provided that the data source is attributed." ↵
- "about thinking about the project as a bigger thing than an individual task. It’s about the movement of the whole project, which my work is just one component of." ↵
- "Some sections prescribed by the DMP Assistant template did not apply to our research project after all." ↵
- "Long term preservation isn’t as relevant to us, as we assume that the technology such as the APIs [application programming interfaces] and the relevance of the data will have changed in 20 years from now." ↵
- Des éléments de cette section sur la propriété intellectuelle sont adaptés de M. Brunet, J. Hatherill et C. Ripp. (2021). Libre accès aux connaissances Partie 2 : Partagez vos données de recherche, Bibliothèque de l’Université d’Ottawa, CC BY 4.0, http://hdl.handle.net/10393/43308 et de M. Brunet et T. Rouleau. (2021). Droit d’auteur et données de recherche à l’Université d’Ottawa : Questions fréquemment posées, Bibliothèque de l’Université d’Ottawa, CC BY 4.0, https://www.uottawa.ca/library/sites/g/files/bhrskd381/files/2022-12/droit_dauteur_et_donnees_de_recherche_faq.pdf. ↵
- Consultez Creative Commons Frequently Asked Questions about data and CC licences, https://wiki.creativecommons.org/wiki/Data#Frequently_asked_questions_about_data_and_CC_licenses. ↵
Mouvement visant à rendre la recherche, les données et la diffusion scientifiques transparentes et largement accessibles, sans barrières financières ou autres.
Données en ligne, gratuites et accessibles qui peuvent être utilisées, réutilisées et distribuées.
Description formelle de tout le processus de la chercheuse ou du chercheur, de la collecte des données à leur analyse puis comment elles seront traitées à la fin du projet.
Sources d'informations ou de preuves qui ont été compilées pour servir de base à la recherche.
Terme qui décrit toutes les activités que les chercheuses et chercheurs effectuent pour structurer, organiser et préserver les données de recherche avant, pendant et après le processus de recherche.
Disponibilité libre et immédiate d’informations sans limites d’utilisation dans l’environnement numérique.
Référence durable à un objet numérique qui fournit des informations sur cet objet indépendamment de ce qui lui arrive. Développé pour lutter contre des liens qui deviennent obsolètes (link rot), un identifiant pérenne peut être résolu pour fournir une représentation appropriée d'un objet, que celui-ci change d'emplacement en ligne ou qu'il soit mis hors ligne [traduction]. (CODATA Research Data Management Terminology, s.d.).
FAIR est un acronyme qui signifie facile à trouver, accessible, interopérable et réutilisable. Les principes directeurs FAIR ont été élaborés en 2014 et visent à améliorer la réutilisation des données, tant par les machines que par les personnes.
Capacité des données ou des outils provenant de ressources non coopératives à travailler ou à communiquer entre eux avec un minimum d'effort et en utilisant un langage commun. L'interopérabilité exige que les données et les métadonnées utilisent des formats normalisés, accessibles et largement utilisés. Par exemple, lors de la sauvegarde de données tabulaires, il est recommandé d'utiliser un fichier CSV plutôt qu'un fichier propriétaire tel que XLSX (Excel). Un fichier CSV peut être ouvert et lu par davantage de logiciels qu'un fichier XLSX.
Éléments d’information utilisés pour décrire le contenu ou le contenant d’une ressource. Elles peuvent être structurées ou non.
Pour une application donnée, ensemble de fonctions et de procédures fournies par une bibliothèque de logiciels ou un service Web avec lequel une autre application peut communiquer.
Document qui fournit des renseignements à propos d’un fichier ou d’un jeu de données. Il permet d’assurer la pérennité de l’interprétation correcte des données par toutes les personnes qui les consulteront.
Format dont les spécifications techniques sont publiques. Les renseignements qui permettent de comprendre le fonctionnement et la structure du format sont accessibles.
Regroupement d’éléments destinés à décrire une ressource. Pour chaque élément, le nom et la sémantique (la signification de l’élément) sont spécifiés. Les règles de contenu (comment celui-ci doit être formulé), les règles de représentation (par exemple, les règles de capitalisation) et les valeurs d’élément autorisées (par exemple, à partir d’un vocabulaire contrôlé) peuvent être spécifiées en option, mais ce n’est pas toujours le cas.
Nom pour une entité dans un réseau numérique; il ne s’agit pas d’une localisation. Le nom fournit un système pour l’identification pérenne et exploitable ainsi que pour l’échange interopérable d’informations gérées sur des réseaux numériques. Un DOI est un type d’identifiant pérenne émis par la Fondation internationale DOI. Cet identifiant permanent est associé à un objet numérique, ce qui permet à l’objet d’être fidèlement cité en référence, et ce, même si sa localisation et ses métadonnées sont modifiées au fil du temps [traduction]. (CODATA Research Data Management Terminology, s.d.).
Cadre principal harmonisé qui guide l’établissement des lois canadiennes et des paradigmes éthiques plus larges en lien avec le droit des êtres humains en recherche.