Glossaire

Analyse exploratoire des données

Processus utilisé pour explorer, analyser et synthétiser des jeux de données au moyen de méthodes quantitatives et graphiques. L'analyse exploratoire des données aide à faire ressortir des patrons et facilite la découverte d'irrégularités et d'incohérences dans un jeu de données.

Analyse secondaire

Dans le cadre d’une recherche, utilisation de données déjà existantes. L’analyse est généralement menée par des chercheuses et chercheurs qui n'ont aucun lien avec la recherche originale.

Approbation éthique

Autorisation qui donne le feu vert à la tenue d’une étude. Elle est obtenue par le biais d’un comité dont les appellations varient : comité d’éthique en recherche, comité d’éthique indépendant ou comité de révision déontologique.

Argument [logiciel tableur]

Valeur ou variable utilisée par une fonction d’un logiciel tableur pour effectuer un calcul. Par exemple, dans Excel, les fonctions sont des formules intégrées au logiciel.

ASCII

American Standard Code for Information Interchange (Code américain normalisé pour l'échange d'information). Norme informatique de codage de caractères. Elle définit 128 codes qui représentent les chiffres arabes de 0 à 9, les 26 lettres de l’alphabet latin en minuscule et en capitales ainsi que des symboles mathématiques et de ponctuation.

Assistant PGD

Outil en ligne qui pose, aux personnes qui l'utilisent, une série de questions sur leurs données et leurs plans de recherche. De l'aide et des conseils contextuels sont disponibles pour aider à répondre aux questions.

Attaque par homogénéité

Moyen de porter atteinte à la confidentialité d’un groupe de participantes et de participants à une recherche quand toutes les personnes ayant le même ensemble d’attributs particuliers possèdent aussi un même attribut sensible.

Authentification multifactorielle

Type d’authentification qui implique un mot de passe et un appareil. L’utilisation d’un mot de passe pour ouvrir une session dans un service entraîne une demande d’entrer un code à usage unique généré par un appareil tel qu’un cellulaire ou un ordinateur. Les codes à usage unique peuvent être transmis par message texte, par courriel ou ils peuvent être générés sur un appareil par le biais d’une application d’authentification telle que Google Authenticator. Plusieurs institutions bancaires et gouvernementales, telles que l’Agence du revenu du Canada, exigent maintenant l’activation de l’authentification multifactorielle.

Autodétermination

Droit des peuples autochtones à déterminer ce qu’il y a de mieux pour leur développement social, culturel et économique afin d'assurer le bien-être de leurs membres. Cette définition s’inspire de la Déclaration des Nations Unies sur les droits des peuples autochtones (DNUDPA).

Biobanque

Dépôt qui stocke des échantillons biologiques, physiques et des données biologiques.

Boîte à moustache

Représentation graphique d’un jeu de données qui affiche la distribution des données et de toute valeur aberrante potentielle. Aussi appelé diagramme en boîte.

Cahier de laboratoire électronique

Type d’outil en ligne basé sur la conception et l’utilisation des cahiers de laboratoire papier.

Carte de base

Carte de référence sous-jacente qui sert d’assise aux données pour les mettre en contexte. Par exemple, sur une carte montrant des informations démographiques dans plusieurs zones de recensement, la carte sera plus difficile à lire sans l’ajout des limites de chacune des zones de recensement. Une carte peut être considérée comme une représentation abstraite, mais sa lecture est enseignée et elle aide les individus à se situer. La carte de base permet donc de situer des données au-dessus d’une carte grâce aux informations sur la position.

Chaînage [logiciel de sondage]

Texte inséré de façon automatique par un logiciel de sondage selon les réponses précédemment données par les personnes qui remplissent un questionnaire.

Classe d’équivalence

Ensemble d’enregistrements qui comporte les mêmes valeurs d’identifiants indirects à l’intérieur d’un jeu de données.

Clé d’anonymisation

Document utilisé par les chercheuses et chercheurs en recherche qualitative pour dépersonnaliser leurs données de manière systématique. Le document relie les informations qui sont supprimées des données originales (par exemple, le nom d'une personne dans la transcription d'une entrevue) et qui sont remplacées par un texte plus générique (p. ex., Personne 6). La chercheuse ou le chercheur travaille alors avec la transcription anonymisée, mais peut utiliser la clé pour réidentifier des personnes, des lieux, des organisations, etc., si ces informations redeviennent importantes au cours de l'analyse. Une clé d'anonymisation doit être protégée par un mot de passe, stockée en toute sécurité et ne jamais être conservée avec les données en question. Elle est souvent détruite à la fin de l'étude.

Comité d’accès aux données

Organe décisionnel indépendant dont l'objectif est de superviser l'accès aux jeux de données à des fins de recherche.

Communauté d’utilisateurs cible

Entité conceptuelle introduite par la norme OAIS qui se rapporte aux personnes utilisatrices potentielles d’un objet numérique préservé dans une archive. La Communauté d’utilisateurs cible est un concept essentiel pour la planification de la préservation à long terme parce qu’il nécessite une compréhension des besoins et des capacités de la Communauté d’utilisateurs cible, permettant ainsi de faire des choix éclairés en matière, notamment, de formats de fichiers et de rétention des données.

Compression sans perte

Mécanisme de réduction de la taille des fichiers qui permet de conserver toutes les données originales. (Manuel de préservation numérique, s.d.).

Conception descriptive

Type de conception d'étude qui se préoccupe des questions exploratoires (p. ex., quoi? quand? comment? où?). L’étude vise à explorer un phénomène ou à effectuer une observation pour décrire un effet.

Conception explicative

Type de conception d'étude qui se préoccupe des liens de causalité (p. ex., les causes et leurs effets ou des questions liées au "pourquoi" d'un effet). L’étude vise à expliquer un phénomène ou une observation pour comprendre un effet.

Conteneur informatique

Ordinateur autonome virtuel à l’intérieur d’un ordinateur. Il comprend tout ce qui est nécessaire pour faire fonctionner un logiciel (y compris le système d’exploitation), sans avoir à télécharger et installer des programmes ou des données.

CONTENTdm

Outil d’OCLC pour la gestion et la présentation de contenu numérique. Consultez https://www.oclc.org/fr/contentdm.html pour plus d’informations.

Contrôle d'intégrité

Méthode permettant de garantir l'intégrité d'un fichier et de vérifier qu'il n'a pas été altéré ou corrompu. Pendant les transferts de fichiers, une archive peut effectuer un contrôle d'intégrité pour s'assurer qu'un fichier transmis n'a pas été altéré en cours de route. Au sein de l'archive, le contrôle d’intégrité est utilisé pour s'assurer que les fichiers numériques n'ont pas été altérés ou corrompus. Il est le plus souvent réalisé en calculant des sommes de contrôles telles que MD5, SHA1 ou SHA256 pour un fichier et en les comparant à une valeur stockée. (Manuel de préservation numérique, s.d.).

Couche [système d’information géographique]

Représentation visuelle d’un jeu de données géographiques dans un environnement cartographique numérique. De manière conceptuelle, une couche est une tranche ou une strate de la réalité géographique dans une zone donnée. Elle équivaut plus ou moins à un élément de légende sur une carte papier. Sur une carte routière, par exemple, les routes, les parcs nationaux, les limites politiques et les fleuves sont autant de couches différentes. (ESRI, s.d.)

Création de paquets de données

Traitement qui consiste à regrouper des données et des informations sur les données dans un ensemble logique qui sera utilisé dans un processus de préservation numérique.

Cycle de vie des données

Cycle au cours duquel les données sont recueillies, traitées, analysées, préservées et ensuite partagées avec d’autres chercheuses et chercheurs qui pourront recommencer le cycle.

Data Documentation Initiative (DDI)

Schéma de métadonnées basé sur des normes et développé pour les données en sciences sociales.

Dégradation du média

Menace à la longévité des objets numériques basée sur la détérioration du support sur lequel ils sont stockés. Parfois appelé « pourriture de l’octet » (bit rot). Les menaces de dégradation du média sont souvent traitées par le biais d’actions de préservation qui assurent l’intégrité des bits, y compris la vérification active des objets numériques pour y déceler des altérations/pertes, en plus de mesures qui visent à créer de multiples copies d’un objet sur différents types de médias.

Délimiteur

Caractère qui sépare les données.

Dépendance [informatique]

Bibliothèque de logiciels supplémentaires qui peut être téléchargée à partir d’Internet et utilisée pour certaines tâches précises de programmation.

Dépersonnalisation

Procédé par lequel tout renseignement qui pourrait compromettre la vie privée des participantes et participants à une recherche dans un jeu de données est retiré.

Détail identifiant

Toute information dans un jeu de données qui, combinée, pourrait conduire à la divulgation de l'identité d'une personne.

Dictionnaire de données

Fichier qui documente et décrit les différents éléments d'un jeu de données. Par exemple, il peut définir les variables, les unités de mesure utilisées, les valeurs acceptées pour les variables, etc. Le document est lisible et souvent exploitable par une machine, comme le guide de codification, et peut également contenir des informations détaillées sur la structure technique d’un jeu de données.

Données administratives

Données recueillies dans le cadre d’un travail de gestion administrative. Les données administratives peuvent être utilisées pour faire le suivi de personnes, d’achats, d’inscriptions, de prix, etc.

Données de recherche

Sources d'informations ou de preuves qui ont été compilées pour servir de base à la recherche.

Données matricielles

Données qui représentent des espaces sous la forme d’une grille ou d’une série de cellules, chacune avec une valeur particulière – souvent considérées comme les pixels d’une image. Par exemple, un document numérisé comme une carte historique ou une photo aérienne.

Données ouvertes

Données en ligne, gratuites et accessibles qui peuvent être utilisées, réutilisées et distribuées.

Données probantes

Données qui se présentent sous diverses formes et qui sont issues d’une activité de recherche : analyse de données, modélisation, synthèse de la littérature, évaluation permettant de produire des lignes directrices, évaluation de mise en œuvre d’un procédé ou d’une technologie et de son coût-efficacité.

Données qualitatives

Données générées par des recherches qui examinent les aspects sociaux de la condition humaine en utilisant des méthodes descriptives plutôt que des mesures.

Données sensibles

Données qui ne peuvent être partagées sans risque de trahir la confiance ou de nuire à une personne, une entité ou une communauté.

Données tabulaires

Données disposées sous la forme de tables ou de tableaux, c’est-à-dire en lignes et en colonnes.

Données vectorielles

Données qui comprennent des points individuels qui se rapportent à des endroits particuliers. Ces points peuvent être reliés pour former des lignes ou des formes (polygones). Ces points, lignes et polygones peuvent être traités comme des unités individuelles avec des données associées.

Droit à l’oubli

Droit qui permet à la personne concernée d’obtenir du responsable du traitement l’effacement, dans les meilleurs délais, de données à caractère personnel la concernant et le responsable du traitement a l’obligation d’effacer ces données à caractère personnel dans les meilleurs délais [traduction]. (GDPR.EU, 2018).

Dublin Core

Schéma de métadonnées simple et générique qui utilise 15 propriétés de base facultatives et répétables comme le titre, le créateur, le format et la date. Créé en 1995, Dublin Core est également une norme internationale (ISO 15836).

Échelle d'intervalles

Échelle qui utilise des chiffres dont la distance entre eux est équivalente, soit en ordre croissant ou décroissant, et où zéro pourrait représenter un point sur l'échelle (c’est-à-dire que zéro n'implique pas une absence de valeur). La température et l'heure en sont de bons exemples. Dans le cas de l'échelle de température en degré Celsius, le zéro se rapporte au point où l'eau gèle, non pas à une absence de température.

Échelle de Likert

Outil élaboré en additionnant ou en faisant la moyenne d'un certain nombre d'items de Likert liés entre eux. Un item de Likert est une question ou un énoncé dans un sondage où la personne interrogée doit exprimer son degré d'accord ou de désaccord.

Échelle de rapport

Échelle qui peut augmenter ou baisser en fonction d'un dénominateur plutôt que de distances équivalentes. Sur une échelle de mesure de rapports, le zéro n'est pas un point sur l'échelle, mais plutôt une absence de valeur. La densité de population est un exemple de mesure de rapports. Dans le cas de densité de population, zéro se rapporte à un endroit sans résidants.

Émulation

Moyen de surmonter l'obsolescence technologique du matériel et des logiciels en développant des techniques permettant d'imiter des systèmes obsolètes sur les futures générations d'ordinateurs. (Manuel de préservation numérique, s.d.).

Énoncé de politique des trois conseils sur l’éthique de la recherche avec des êtres humains (EPTC 2)

Cadre principal harmonisé qui guide l’établissement des lois canadiennes et des paradigmes éthiques plus larges en lien avec le droit des êtres humains en recherche.

Environnement de développement intégré

Application logicielle qui fournit un environnement complet de développement de logiciels. RStudio est un environnement de développement intégré qui permet aux personnes qui l’utilisent d’écrire, de déboguer, d’exécuter du code R et d’afficher les sorties correspondantes.

Étude longitudinale

Type d’étude qui s’intéresse aux effets du temps sur un résultat quelconque. Autrement dit, une étude qui mesure un résultat à plusieurs moments dans le temps. Par exemple, une enquête longitudinale implique une même enquête sur les mêmes individus répétée à plusieurs moments pour comprendre les changements d’attitude ou de comportement au fil du temps.

Évaluation de la maturité de la gestion des données de recherche

Évaluation de l’état actuel des services et du soutien en gestion des données de recherche, généralement pour un établissement particulier.

Extension de fichier

Suffixe attribué à un fichier afin de l’identifier. Par exemple, un fichier créé avec le logiciel Word portera l’extension DOCX.

Fichier CSV

Fichier texte délimité qui utilise la virgule pour séparer les valeurs d’un enregistrement de données. Chaque ligne du fichier correspond à un enregistrement de données.

Fichier TSV

Fichier texte délimité qui utilise une tabulation pour séparer les valeurs. Chaque ligne du fichier correspond à un enregistrement de données.

Format de fichier

Méthode normalisée qui répartit des uns et des zéros pour qu’ils puissent être utilisés pour codifier certains types particuliers d’informations.

Format non propriétaire

Format qui n'appartient pas à une entreprise.

Format ouvert

Format dont les spécifications techniques sont publiques. Les renseignements qui permettent de comprendre le fonctionnement et la structure du format sont accessibles.

Format tabulaire

Informations intégrées à des tableaux avec des rangées et des colonnes.

Fourche [Github]

Dans GitHub, copie d’un jeu de données qui conserve son lien vers la création originale.

Frais de traitement d’article

Frais de publication facturés aux autrices, auteurs ou à leurs établissements pour rendre une œuvre disponible en libre accès.

Gestion des données de recherche

Terme qui décrit toutes les activités que les chercheuses et chercheurs effectuent pour structurer, organiser et préserver les données de recherche avant, pendant et après le processus de recherche.

Gestion des versions

Système qui fait automatiquement le suivi de chaque modification à un document ou fichier, permettant aux personnes qui l’utilisent de revenir à des versions sauvegardées antérieures sans avoir à continuellement enregistrer des copies sous différents noms.

Gestionnaire de mots de passe

Logiciel qui stocke les mots de passe. Certains gestionnaires de mots de passe peuvent aussi créer et suggérer des mots de passe plus complexes à utiliser.

Guide de codification

Fichier surtout utilisé par des sondeurs qui fournit des informations détaillées sur l'outil de sondage. Par exemple, on y retrouve les questions du sondage, les noms et définitions des variables utilisés pour coder les réponses du sondage, les valeurs acceptées pour chacune des variables, des statistiques sommaires pour chacune des questions, etc.

Histogramme

Représentation graphique de la distribution d’un jeu de données continues ou de valeurs énumérables et identifiables séparément.

Humanités numériques

Domaine de recherche qui s'intéresse à l'application d'outils et de méthodes informatiques aux disciplines traditionnelles des sciences humaines telles que la littérature, l'histoire et la philosophie.

Identifiant direct

Renseignement recueilli par la chercheuse ou le chercheur qui permet d’identifier des participantes ou des participants à une recherche. Les noms, numéros de téléphone, numéros d’assurance sociale et numéros d’étudiant sont des exemples d’identifiants directs.

Identifiant indirect ou quasi-identifiant

Attribut d’un individu qui n’est pas identifiant en soi mais qui, en combinaison avec d’autres renseignements, peut permettre d’identifier une personne. Un attribut ne peut être quasi-identifiant que si des pirates informatiques peuvent raisonnablement jumeler cet attribut à des informations de source externe.

Identifiant numérique d’objet (DOI)

Nom pour une entité dans un réseau numérique; il ne s’agit pas d’une localisation. Le nom fournit un système pour l’identification pérenne et exploitable ainsi que pour l’échange interopérable d’informations gérées sur des réseaux numériques. Un DOI est un type d’identifiant pérenne émis par la Fondation internationale DOI. Cet identifiant permanent est associé à un objet numérique, ce qui permet à l’objet d’être fidèlement cité en référence, et ce, même si sa localisation et ses métadonnées sont modifiées au fil du temps [traduction]. (CODATA Research Data Management Terminology, s.d.).

Identifiant unique pérenne

Référence durable à un objet numérique qui fournit des informations sur cet objet indépendamment de ce qui lui arrive. Développé pour lutter contre des liens qui deviennent obsolètes (link rot), un identifiant pérenne peut être résolu pour fournir une représentation appropriée d'un objet, que celui-ci change d'emplacement en ligne ou qu'il soit mis hors ligne [traduction]. (CODATA Research Data Management Terminology, s.d.).

Infonuagique

Système informatique qui est réparti sur plus de deux serveurs dans plus de deux emplacements, permettant ainsi un accès à distance par l’entremise de navigateurs Web ou d’interfaces de programmation (API) pour la puissance de calcul et/ou le stockage des données.

Intégration [informatique]

Processus consistant à relier des systèmes ou des outils différents, souvent disparates, en une infrastructure cohérente.

Intégrité

Concept lié à la permanence des objets numériques. L’uniformité des objets numériques est complexe à établir; la façon dont ils sont stockés implique que les objets sont souvent copiés ou transférés et il faut s’assurer qu’ils restent identiques aux objets avant la copie ou le transfert. Dans la pratique courante, l’intégrité est intimement liée à la génération et la vérification des sommes de contrôle, ce qui peut aider à assurer qu’une série ordonnée de bits est restée inchangée.

Interface de programmation d’application (API)

Pour une application donnée, ensemble de fonctions et de procédures fournies par une bibliothèque de logiciels ou un service Web avec lequel une autre application peut communiquer.

Interopérabilité

Capacité des données ou des outils provenant de ressources non coopératives à travailler ou à communiquer entre eux avec un minimum d'effort et en utilisant un langage commun. L'interopérabilité exige que les données et les métadonnées utilisent des formats normalisés, accessibles et largement utilisés. Par exemple, lors de la sauvegarde de données tabulaires, il est recommandé d'utiliser un fichier CSV plutôt qu'un fichier propriétaire tel que XLSX (Excel). Un fichier CSV peut être ouvert et lu par davantage de logiciels qu'un fichier XLSX.

Jumeau de données

Dans un jeu de données ayant des identifiants indirects, enregistrement qui a la même valeur ou les mêmes attributs qu’un autre enregistrement. Par exemple, dans un jeu de données, deux hommes blancs entre 25-30 ans sont des jumeaux de données.

K-anonymisation

Approche permettant de démontrer mathématiquement qu’un jeu de données a été anonymisé. L’approche part du principe que ce ne devrait pas être possible d’isoler moins de « k » cas individuels dans un jeu de données et ce, pour toutes les combinaisons possibles de variables identificatoires – « k » correspond au numéro établi par la chercheuse ou le chercheur.

K-anonymisation p-sensible

Évaluation des risques à la vie privée fondée sur la k-anonymisation, mais plus contraignante.

L-diversité

Évaluation des risques à la vie privée fondée sur la k-anonymisation, mais plus contraignante. La l-diversité est appliquée à un jeu de données quand chaque groupe d’enregistrements qui partage une même série d’attributs démographiques comporte au moins « l » valeurs différentes pour chacune des variables confidentielles.

Les organismes subventionnaires

Le Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG), le Conseil de recherches en sciences humaines du Canada (CRSH) et les Instituts de recherche en santé du Canada (IRSC) (les organismes subventionnaires) représentent les trois agences fédérales de financement de la recherche au Canada. Ils sont à la source d’une importante proportion des fonds de recherche au Canada.

Libre accès

Disponibilité libre et immédiate d’informations sans limites d’utilisation dans l’environnement numérique.

LISEZ-MOI

Document qui fournit des renseignements à propos d’un fichier ou d’un jeu de données. Il permet d’assurer la pérennité de l’interprétation correcte des données par toutes les personnes qui les consulteront.

Littératie en matière de codage

Capacité de bien comprendre le code informatique, au même titre que la littératie en mathématiques (ou numératie) est la capacité de bien comprendre les mathématiques. L’apprentissage du code en informatique a souvent été comparé à l’apprentissage d’une nouvelle langue.

Métadonnées

Éléments d’information utilisés pour décrire le contenu ou le contenant d’une ressource. Elles peuvent être structurées ou non.

Métadonnées lisibles par machine

Métadonnées qui sont dans un format qu’un ordinateur peut utiliser et comprendre.

Modèle d’évaluation de la maturité

Outil utilisé pour évaluer le niveau de sophistication d’un service ou d’un produit. Les différents modèles mesurent le niveau d’aboutissement de capacités dans des domaines clés en utilisant une échelle de valeurs numériques, permettant ainsi aux personnes qui les utilisent de quantifier ces capacités et de favoriser l’amélioration continue des processus.

Modèle pour l’évaluation de la maturité au Canada (MEMAC)

Version française du Maturity Assessment Model in Canada (MAMIC). Outil d’évaluation de la gestion des données de recherche (GDR) proprement canadien conçu pour aider les établissements dans l’évaluation de l’état actuel de leurs services et soutien à la GDR, ce qui constitue un des éléments dans le processus d’élaboration de stratégies institutionnelles de GDR. Le MEMAC s’articule autour de quatre champs de services et de soutien : les politiques et processus de l’établissement, l’infrastructure informatique, les services de soutien et le support financier. Il permet donc aux personnes qui l’utilisent d’évaluer la maturité et l’ampleur de ces services.

Nettoyage des données

Processus qui vise à identifier et corriger les données altérées, inexactes ou non pertinentes. Cette étape fondamentale du traitement des données améliore la cohérence, la fiabilité et la valeur des données. (Talend, s.d.).

Niveau de maturité [MEMAC]

Mesure du degré d’aboutissement d’un élément particulier en lien avec la gestion des données de recherche. Plus la note est faible, moins l’élément est développé (mature).

Normalisation

Lors de l'ingestion des fichiers dans un système de préservation, processus qui consiste à convertir une copie des fichiers originaux dans un format non propriétaire, largement utilisé et respectueux de la préservation. La normalisation standardise les formats des objets numériques ingérés et permet aux archives d'éviter de gérer un grand nombre de formats. Cependant, la normalisation peut également modifier la taille et les propriétés des fichiers. [traduction]. (Scholars Portal, s.d.).

Notation chameau

Écriture sans espace ni ponctuation qui utilise des lettres majuscules afin de distinguer les mots.

OAIS

Modèle conceptuel publié en 2002, révisé en 2012 (et traduit en 2017), le modèle du système ouvert d’archivage d’information (Open Archival Information System, OAIS) établit une série de recommandations pour un système d’information dont le but est de maintenir la capacité d’utilisation des objets numériques au fil du temps. Devenu une norme ISO (ISO 14721) en 2003.

Objet numérique

Tout morceau d’information, soit unique, soit groupé, qui est stocké par un ordinateur. L'utilisation du terme numérique s'explique parce que toutes les versions des données lisibles par un ordinateur sont codées sous la forme d'une série de uns et de zéros qui sont les seules entrées que les systèmes informatiques peuvent comprendre.

Objet R

Structure de données qui contient un ensemble de valeurs de type particulier. Les objets R peuvent être créés, modifiés et utilisés pour effectuer des calculs et des analyses.

Obsolescence des formats

Menace à la longévité des objets numériques basée sur l’incapacité de décoder la séquence de bits qui constitue l’objet numérique. Les menaces d’obsolescence des formats sont souvent traitées par le biais d’un programme d’identification et de validation des formats de fichiers et – au besoin – de la normalisation ou migration des formats obsolètes vers des formats courants.

Obsolescence des médias

Menace à la longévité des objets numériques basée sur la notion que le média sur lequel ils sont stockés pourrait devenir inutilisable parce que la personne qui veut les utiliser ne détient pas le matériel informatique (ou le logiciel, comme les pilotes de périphérique) nécessaire pour accéder aux données sur le média. Au moment de rédiger ce manuel, l’obsolescence des médias est généralement associée aux disquettes et à une variété de formats de cartouches de données qui, au fil du temps, ne font plus partie de l’usage courant. Les menaces d’obsolescence des médias sont traitées par le biais de méthodes qui assurent l’intégrité au niveau des bits, dont la migration régulière des objets numériques vers des supports modernes plus récents.

Ontologie

Représentation théorique d’un domaine de connaissances dont les concepts sont liés par des relations sémantiques et logiques.

OpenRefine

Outil de manipulation de données à code source libre qui nettoie, remodèle et édite par lots les données désordonnées et non structurées.

Opérationnaliser des variables

Action qui implique l'établissement de définitions mesurables et quantifiables pour des concepts ou des constructions abstraites qui ne peuvent être directement mesurés.

ORCiD

Identifiant unique pour les membres de la communauté de la recherche. Il est défini par un code numérique permanent ayant deux fonctions principales : lier la personne à ses activités de recherche, dont ses publications, et la distinguer de ses homonymes.

Outil en ligne de commande

Programme informatique qui peut fonctionner à partir d'une interface en ligne de commande (ILC) d’un système d’exploitation. L'ILC est une interface à base de texte qui permet à une personne d’interagir avec un ordinateur en utilisant des commandes écrites plutôt que d’utiliser une interface graphique avec des menus et des icônes.

Paquet d’information archivé

Ensemble d'informations, comprenant les informations de contenu et les informations de description de la préservation associée, qui sont préservées dans un système OAIS. (Manuel de préservation numérique, s.d.).

PCAP®

Acronyme qui signifie propriété, contrôle, accès et possession. Ces quatre principes gouvernent la manière dont les données et l’information relatives aux Premières Nations devraient être collectées, protégées, utilisées et partagées. Les principes PCAP® ont été créés pour combler une lacune dans les lois occidentales qui ne reconnaissent pas les droits des communautés et des peuples autochtones à contrôler leur information.

Personne responsable de l’intendance des données

Bien que son rôle puisse varier, la personne responsable de l'intendance des données dans un contexte de recherche est chargée de veiller à ce que les données soient traitées de manière systématique et uniforme.

Personne unique à l’échantillon

Personne dont les renseignements en matière de quasi-identifiants ne correspondent à ceux d’aucune autre personne dans le jeu de données.

Personne unique à la population

Personne dans une population qui peut être identifiée en raison d’une combinaison unique d’attributs démographiques.

Perte de la provenance

Menace à la longévité des objets numériques basée sur l’incapacité des membres de la communauté des utilisatrices et utilisateurs à identifier des informations importantes sur l’objet numérique, notamment sa source, l’historique des modifications et ultimement, son authenticité. Les menaces à la provenance d’un objet numérique sont souvent traitées par le biais de la création et de la mise à jour des métadonnées de préservation.

Photographie oblique

Photographie aérienne prise avec l’axe de la caméra tenu à un angle entre le plan horizontal du sol et le plan vertical perpendiculaire au sol. Une image oblique basse affiche uniquement la surface de la Terre; une image oblique élevée inclut l’horizon. (ESRI, s.d.).

Piste de vérification

Documentation qui retrace l'activité et la prise de décision tout au long de la vie d'un projet en détaillant ce qui s'est passé, quand et pourquoi.

Plan de gestion des données

Description formelle de tout le processus de la chercheuse ou du chercheur, de la collecte des données à leur analyse puis comment elles seront traitées à la fin du projet.

Politique des trois organismes sur la gestion des données de recherche

Politique qui s'applique aux données générées grâce au financement de la recherche par l'une des trois agences fédérales de financement du Canada. Cette politique vise à encourager l'amélioration de la recherche en obligeant les chercheuses et chercheurs à créer des plans de gestion de données et à préserver leurs données.

PREMIS

Norme pour les métadonnées ainsi qu’un dictionnaire de données développés pour uniformiser la façon dont les systèmes de préservation enregistrent et comprennent les concepts importants liés à la préservation à long terme d’objets numériques. Les fichiers PREMIS peuvent comprendre des informations techniques (p. ex., l’information sur le format de fichier, les sommes de contrôle) ainsi que des informations sur la provenance (p. ex., les journaux des changements (changelogs), les informations sur les acquisitions).

Prépublication

Version préliminaire d’un article qui n’a pas encore passé le processus d’examen par les pairs, mais qui peut être partagé à des fins de rétroaction. Les prépublications (ou préimpressions) peuvent être considérées comme de la littérature grise.

Préservation au niveau des bits

Niveau de préservation qui préserve la séquence de uns et de zéros qui compose un objet numérique, mais qui ne traite pas nécessairement de la compréhension des données codées.

Préservation numérique

Série d'activités gérées nécessaires pour garantir un accès continu aux objets numériques aussi longtemps que nécessaire.

Principes FAIR

FAIR est un acronyme qui signifie facile à trouver, accessible, interopérable et réutilisable. Les principes directeurs FAIR ont été élaborés en 2014 et visent à améliorer la réutilisation des données, tant par les machines que par les personnes.

Processus réflexif

Processus par lequel la chercheuse ou le chercheur en recherche qualitative reconnaît, examine et tient compte de l'impact de ses propres jugements, pratiques et croyances sur la collecte et l'analyse des données.

Programmation lettrée

Affichage de façon linéaire de code, commentaires et sorties, un peu comme une œuvre de littérature.

Provenance

Documentation faisant référence à la source, l’historique et la propriété d’un artéfact, que celui-ci soit analogique ou numérique.

Quartile

Valeur qui divise une liste de numéros en quartier.

Récapitulation entre collègues

Sessions où les membres d'une équipe de recherche se questionnent sur ce qu'elles ou ils ont vu et entendu. Ces discussions peuvent parfois faire partie de l'ensemble final des données de l'étude.

Recherche computationnelle

Recherche qui dépend des ordinateurs pour la création ou l’analyse des données.

Recherche itérative

Approche où des révisions ou des modifications font partie intégrante du processus de recherche. Conséquemment, le plan d'étude peut être adapté selon les constats identifiés au fil de la collecte et de l'analyse des données.

Réduction globale des données

Modification de certaines variables dans l’ensemble d’un jeu de données, par exemple regrouper des réponses en catégories.

Renseignement identificatoire

Tout renseignement dans un jeu de données qui, seul ou en combinaison avec d’autres renseignements, risque de permettre d’identifier une personne.

Réplicabilité de la recherche

Caractère d’une recherche qui peut être reproduite par d’autres chercheuses ou chercheurs qui, avec des données différentes ou nouvelles, arriveront à des résultats semblables ou identiques à ceux de la recherche originale.

Reproductibilité de la recherche

Caractère d’une recherche qui peut être reprise par des chercheuses ou chercheurs qui ne faisaient pas partie de l'équipe de recherche originale, mais qui utilisent les mêmes données pour arriver aux mêmes résultats.

Rétrocompatibilité

Caractéristique d'un logiciel, d'un programme ou d'un appareil qui fonctionne avec un système avancé, mais qui peut également fonctionner avec les versions antérieures de ce système. (OQLF, 2008).

Savoir traditionnel

Connaissances collectives des traditions et des pratiques développées au fil du temps et dont se servent les groupes autochtones pour subvenir à leurs besoins et s’adapter à leur environnement. Le savoir traditionnel est transmis de génération en génération au sein des communautés autochtones. Le savoir autochtone prend diverses formes notamment récits, cérémonies, danses, art, artisanat, chasse, trappage, cueillette, préparation de la nourriture, stockage des aliments, spiritualité, croyances, conceptions du monde et plantes médicinales.

Schéma de métadonnées

Regroupement d’éléments destinés à décrire une ressource. Pour chaque élément, le nom et la sémantique (la signification de l’élément) sont spécifiés. Les règles de contenu (comment celui-ci doit être formulé), les règles de représentation (par exemple, les règles de capitalisation) et les valeurs d’élément autorisées (par exemple, à partir d’un vocabulaire contrôlé) peuvent être spécifiées en option, mais ce n’est pas toujours le cas.

Science ouverte

Mouvement visant à rendre la recherche, les données et la diffusion scientifiques transparentes et largement accessibles, sans barrières financières ou autres.

Sciences sociales

Catégorie métadisciplinaire englobant les disciplines académiques qui utilisent des méthodologies et approches scientifiques pour étudier des phénomènes sociaux, culturels, affectifs et de comportements humains. Des exemples de disciplines de sciences sociales comprennent la sociologie, la science politique, l'économie, la psychologie, les études sur l'information et plus.

Scripts

Fichier texte qui contient des séquences de commandes dans un langage de programmation particulier (par exemple, R) pouvant être exécutées de façon consécutive.

Séparateur [informatique]

Caractère spécial réservé par les systèmes ou langages informatiques pour désigner des objets ou éléments indépendants.

Séquence de bits

Enchaînement précis de bits (0 ou 1) qui ensemble ont une signification (p. ex., un caractère, une opération à effectuer (instruction-machine), une sélection de couleur, un objet numérique).

Signature [format]

Série de bits qui s’enchaînent de façon prévisible au début, à la fin ou aux deux extrémités d’un fichier.

Signature numérique

Équivalent d’une signature manuscrite sur papier qui offre des garanties sur l’authenticité de l’identité de la personne signataire.

Somme de contrôle

Chaînes numériques ou alphanumériques uniques de longueurs potentielles variées produites par un algorithme cryptographique tel que CRC, MD5, SHA1 et SHA256. Aussi appelée empreinte numérique, même la plus petite modification apportée au fichier entraînera une modification complète de la somme de contrôle.

Source libre

Lorsque du code ou un logiciel est ouvert ou en source libre, les personnes qui l’utilisent sont autorisées à inspecter, utiliser, modifier, améliorer et redistribuer le code sous-jacent. Plusieurs programmeuses et programmeurs utilisent la licence MIT lors de la publication de leur code, ce qui implique que toutes les itérations ultérieures du logiciel incluent également la licence MIT.

Souveraineté des données autochtones

Droit des peuples autochtones de collecter, d’analyser, d’interpréter, de gérer, de distribuer et de réutiliser les données auxquelles ils ont accès qui sont dérivées de leurs communautés ou en lien avec elles.

Stockage actif

Niveau de stockage qui prend en charge les données à l’étape active du projet de recherche, pendant que les données sont créées, modifiées et consultées fréquemment.

Stockage de type archive

Niveau de stockage qui prend en charge une série d’activités gérées nécessaires pour soutenir la préservation à long terme des documents numériques.

Stockage de type dépôt

Niveau de stockage qui prend en charge le versement, le stockage, la découverte et l’accès approprié de copies sûres de documents numériques dans divers formats.

Suppression locale [anonymisation]

Processus utilisé lors de l'anonymisation d'un jeu de données. Le processus implique la suppression de réponses ou de cas individuels.

Traçabilité de la recherche

Caractère d’une recherche où des chercheuses ou chercheurs externes peuvent comprendre et répéter chacune des modifications apportées aux données brutes pour les préparer à l’analyse.

Unicode

Standard pour le codage des caractères qui n’est pas lié aux formats ni aux codages des alphabets. Il permet l’échange de textes dans différentes langues.

Valeur aberrante

Point de données qui diffère de façon importante des autres points d’un jeu de données; elle peut entraîner des problèmes avec certains types de modèles ou d’analyses de données.

Variable catégorique

Type de données qui représente des catégories discrètes. Les données catégoriques ordinales peuvent être mises dans un ordre ou classées en séquence. Des exemples comprennent les notes de cours qui utilisent des lettres (p. ex., A, B, C, D, F) et l’échelle de Likert (une échelle avec 5 choix de réponses qui mesurent des constructions latentes ou des phénomènes qui ne peuvent être observés de façon directe). Il existe également des variables catégoriques nominales qui ne peuvent être mises en ordre sur une échelle ou en séquence. Celles-ci peuvent être codées avec des variables factices et incluses dans des analyses quantitatives. Des exemples de variables catégoriques non scalaires comprennent le genre, la race, l’ethnicité, les villes, etc.

Variable factice

Variable textuelle ou non quantitative à laquelle un chiffre a été attribué à des fins d’analyses quantitatives. Par exemple, un jeu de données qui comprend une variable pour le genre pourrait être codé avec 1 pour l’option féminin, 2 pour masculin, 3 pour non-binaire et 4 pour « préfère ne pas répondre. »

Versionnage

Permet de garder une trace des modifications apportées à un fichier, aussi petites soient-elles. Également connue sous le nom de contrôle de version, cette opération s'effectue généralement à l'aide d'un système de contrôle de version automatisé tel que GitHub. De nombreux services de stockage de fichiers tels que Dropbox, OneDrive et Google Drive, conservent des versions historiques d'un fichier chaque fois qu'il est enregistré. Il est possible d'accéder à ces versions en consultant l'historique du fichier.

Vocabulaire contrôlé

Liste de terminologies, mots et expressions utilisés pour indexer ou analyser du contenu et pour retrouver de l’information, généralement dans un domaine spécifique d’information [traduction]. (CODATA Research Data Management Terminology, s.d.).

Vol et exploitation du savoir

Collecte de connaissances autochtones sans demander la permission de partenaires au sein de la communauté ou sans consulter les communautés.

Licence

Symbole de License Creative Commons Attribution - Pas d’utilisation commerciale 4.0 International

La gestion des données de recherche dans le contexte canadien Droit d'auteur © 2023 par Sous la direction de Kristi Thompson; Elizabeth Hill; Emily Carlisle-Johnston; Danielle Dennie; et Émilie Fortin est sous licence License Creative Commons Attribution - Pas d’utilisation commerciale 4.0 International, sauf indication contraire.

Partagez ce livre