Méthodes de travail avec les données de recherche
9 Un aperçu du fascinant monde des formats de fichiers et des métadonnées
Émilie Fortin
Objectifs d’apprentissage
À la fin de ce chapitre, vous pourrez :
- Comprendre ce qu’est un format pérenne.
- Choisir adéquatement un format selon vos besoins.
- Comprendre l’utilité des métadonnées.
- Distinguer les différents types de métadonnées.
Introduction
Le cycle de vie des données de recherche inclut toujours une étape de préservation, qui porte parfois le nom de conservation ou d’archivage. Cette étape est liée à celle de la réutilisation des données, car personne ne peut remployer des données endommagées ou inaccessibles. Le chapitre « La préservation numérique des données de recherche » aborde la question de la préservation numérique et le présent chapitre se concentre sur deux éléments qui permettront de repérer et de réutiliser des données : les formats de fichiers et les métadonnées.
Les formats de fichiers
Évaluation préliminaire
Répondez le plus honnêtement possible aux questions suivantes (Oui, Non) :
- Avez-vous des difficultés à ouvrir certains fichiers que vous avez créés il y a plus de dix ans?
- Pensez-vous que, dans une dizaine d’années, vous aurez des difficultés à ouvrir les fichiers que vous créez cette année?
- Pensez-vous qu’un fichier PDF est un parfait format de préservation?
- Est-ce que vous vous réveillez la nuit en vous demandant si vos arrière-petits-enfants vont encore avoir des photos numériques de vous?
- Est-ce que vous adorez les applications interactives et vous voudriez que tous vos projets soient le plus connectés possible?
Si vous avez répondu oui à plus de deux questions, cette section devrait vous être utile.
Qu’est-ce qu’un format?
Les formats de fichiers numériques sont conçus selon des principes structurels et organisationnels prédéfinis. Ces principes sont généralement listés dans un document de spécifications qui fournit des détails sur les subdivisions, l’encodage et les relations internes qui permettent de construire et de valider un format. Une spécification de format indique les frontières entre les séquences de bits. Celles-ci peuvent représenter un caractère, une opération à effectuer (instruction-machine), une sélection de couleur, etc.
En résumé, il s’agit d’une série de 1 et de 0 spécifique et conventionnée utilisée pour reconnaître un format.
À partir du moment où vous utilisez un support informatique, peu importe l’usage que vous en faites, gardez à l’esprit que vous utilisez, créez ou modifiez des formats.
Qu’est-ce qu’un format pérenne?
Aucun format n’est vraiment pérenne. Ceux qui sont jugés acceptables pour la préservation à long terme sont des formats qui restent accessibles dans le temps malgré les évolutions technologiques. Un bon format aujourd’hui peut devenir désuet dans deux, cinq ou dix ans.
Voici certains critères qui permettent de juger de la pérennité d’un format.
- Complexité
- Rétrocompatibilité
- Encodage
- Dépendance
- Ouverture
- Métadonnées
- Propriété
- Utilisation
- Évolution
- Protections
Complexité. Le format doit offrir de bonnes capacités, mais éviter d’être trop complexe, sinon il sera difficile à préserver dans le temps avec toutes ses fonctionnalités. La complexité d’un format peut se définir par sa lisibilité par les humains, sa compression et la variété de ses fonctionnalités. Plus il faut déployer d’efforts pour déchiffrer un format, plus il y a de chance qu’il ne soit pas parfaitement compris.
Rétrocompatibilité. Le format est-il reconnu pour sa rétrocompatibilité? Lorsqu’une nouvelle version d’un logiciel est produite, à quel point est-ce possible d’ouvrir les formats créés avec les anciennes versions du logiciel? Les générations d’un même format sont-elles très différentes entre elles?
Encodage. Dans un environnement occidental, le format utilisera probablement un encodage standard de type ASCII ou Unicode. Si vous utilisez des symboles ou des langues non latines, l’encodage est important, car vous désirez que la lettre ou le symbole que vous utilisez s’affiche correctement, peu importe qui ouvrira votre fichier.
Dépendance. Il est ici question de dépendance du format envers son logiciel, mais également envers une technologie spécifique, envers d’autres fichiers ou envers son environnement. Le format peut-il être ouvert seulement par un logiciel spécifique? Le format est-il une sorte de contenant dans lequel on retrouve d’autres formats (p. ex., format de compression de type ZIP, vidéo intégrée dans un fichier texte, fichier vidéo avec une bande-son)? Le format doit-il se connecter à votre environnement pour fonctionner (p. ex., livre interactif qui est connecté à la caméra de votre téléphone)?
Les ressources externes à votre fichier peuvent être perdues avec le temps, donc plus le format a de dépendances, plus il sera difficile à préserver dans sa forme actuelle.
Ouverture. Un format ouvert est préférable.
Exemples de formats ouverts : fichiers Office avec X (p. ex., XLSX, DOCX), PDF, TXT, JPG, PNG, CSV.
Métadonnées. Il s’agit ici des métadonnées internes au fichier. Pensez aux propriétés du fichier auxquelles vous pouvez accéder dans les logiciels et par le biais de votre système d’exploitation.
Identifier un format est une première étape, mais documenter le plus possible le contenu et le contenant à même le format est également très utile. Plus un objet numérique est documenté, mieux il pourra être compris dans les années à venir. Un format qui est un bon support aux métadonnées est avantageux, car si le fichier ne s’ouvre plus, il est parfois possible d’obtenir de l’information précieuse grâce aux métadonnées (p. ex., titre, créateur, logiciel utilisé pour enregistrer le format). Pour plus de détails à ce sujet, veuillez consulter la section sur les métadonnées.
Propriété. Un format propriétaire appartient à une personne morale. Il peut être ouvert ou non. Son évolution est contrôlée par son propriétaire. Ces formats sont généralement rattachés à des logiciels particuliers. Lorsque les formats sont non propriétaires, leur évolution est contrôlée par une communauté d’utilisateurs et ils sont en grande majorité ouverts.
- Exemples de formats non propriétaires : MKV, TXT, XML, CSV, PNG;
- Exemples de formats propriétaires, mais ouverts : fichiers Office avec X (p. ex., DOCX, XLSX), PDF, RAR;
- Exemples de formats propriétaires : AutoCAD, PSD, WMA.
Utilisation. Si uniquement une dizaine de personnes utilisent un format, même si celui-ci est ouvert et non propriétaire, il va disparaître. À l’opposé, un format propriétaire extrêmement populaire est très peu à risque de s’éteindre dans les prochaines années.
Si un format propriétaire fermé est adopté comme norme par une bibliothèque, un centre d’archives ou une communauté de recherche, il est fort possible que le format soit pérenne grâce à sa popularité. Toutefois, son évolution doit être surveillée de près.
Évolution. Le format doit suivre un cycle d’amélioration en continu tout en évitant les abus. Les systèmes changent, donc les logiciels et les formats doivent évoluer; un format statique n’est pas nécessairement meilleur qu’un format qui se développe. Toutefois, lancer une série de nouvelles versions d’un format dans un intervalle de temps limité peut être considéré comme abusif, car les changements fréquents menacent l’accessibilité à long terme.
Protections. Il existe plusieurs mesures techniques de protection de fichiers. Par exemple, le cryptage et l’utilisation d’un mot de passe sont de bonnes méthodes pour protéger des données sensibles, mais elles ne sont pas compatibles avec la préservation à long terme. Imaginons simplement l’impact qui peut avoir la perte d’un mot de passe!
De la même manière, certaines mesures permettant de protéger la propriété intellectuelle d’un fichier, comme les verrous sur les livres électroniques, risquent de compromettre l’accès au contenu.
Comment choisir un format pour un projet de recherche?
Les critères qui définissent un format pérenne sont importants, mais il est fondamental de bien les appliquer aux besoins de votre projet. Il n’est pas nécessaire de se conformer à tous les critères. De plus, si votre domaine de recherche vous oblige à utiliser un format qui ne répond à aucun critère de format pérenne, vous ne devez pas vous empêcher de l’utiliser, simplement rester conscient qu’il y aura un impact sur la préservation des données.
Voici quelques questions que vous pouvez vous poser pour vous aider à choisir le meilleur format :
- Avez-vous besoin de préserver vos données à long terme? Si vous prévoyez supprimer l’ensemble de vos données dans cinq ans et ne pas les partager, ne pensez qu’à vos propres besoins d’utilisation.
- Si vous utilisez des appareils/instruments de recherche, avez-vous un choix de format? Si oui, tentez d’opter pour un format pérenne si cette option n’a aucun impact sur votre recherche.
- Est-ce que l’aspect ou la mise en forme des données est important ou seulement les données elles-mêmes? Si l’aspect des données n’est pas important, vous pouvez opter pour un format plus simple. Par exemple, un document textuel conservé en tant que PDF permet de préserver l’aspect et la mise en forme d’un document, mais la réutilisation du contenu est complexe. Cependant, si le document textuel est converti en format TXT, la mise en forme est perdue, mais le contenu pourra facilement être réutilisé.
- Est-ce que les données sont indépendantes ou connectées à d’autres données? Si vos données sont rattachées à des équations ou à d’autres fichiers, vous devez conserver ces liens.
- Est-ce que vous devez contrôler le poids de vos fichiers? Si vous êtes limité en espace, vous n’aurez peut-être pas le choix d’opter pour une compression. Essayer d’utiliser une compression sans perte.
- Dans votre discipline, existe-t-il un format qui est utilisé par la majorité de vos collègues et qui est incontournable?
Dans certains cas, il est envisageable de garder des données à la fois dans leur format d’origine et dans un format pérenne, mais cette préservation en double doit avoir un objectif. Par exemple, vos données peuvent desservir deux communautés très différentes qui n’utilisent pas le même niveau de technologie. Toutefois, vous devez éviter au maximum la confusion que peuvent apporter deux versions d’un même jeu de données.
Une autre option pourrait être de garder uniquement le format original et de générer au besoin des copies moins lourdes. Cette option est risquée dans le sens qu’elle implique une dépendance aux logiciels qui sont capables de lire le format original.
Vous devez garder en tête que des données illisibles dans dix ans ne seront plus utiles à personne, y compris pour vous-mêmes.
La plupart des bibliothèques nationales publient une liste de formats recommandés (voir la section Lectures et ressources supplémentaires); il peut être utile de les consulter. Vous trouverez ici quelques-uns des formats qui font généralement consensus en 2023.
Bases de données
Une base de données implique des valeurs, mais également une structure et des relations entre les valeurs. Les bases de données les plus couramment utilisées au moment d’écrire ces lignes sont Microsoft Access, Oracle, MySQL et PostgresSQL. Lorsque vient le temps de se pencher sur la préservation à long terme d’une base de données, il faut évaluer les besoins futurs : est-ce que la base de données est encore utilisée? Est-ce que la préservation des valeurs seules sera suffisante ou faut-il aussi documenter la structure et les relations?
Les bases de données sont complexes à préserver vu leur structure et l’évolution de leur contenu. Il est important de circonscrire les besoins avant de choisir un format de préservation.
Quelques formats recommandés :
- Formats avec séparateurs de valeurs (CSV, TSV, TXT) : préserve les données, mais pas les relations ni les formules. Surtout utile pour les bases de données simples et de petites tailles;
- Format de préservation de base de données (SIARD 1.0 et 2.0) : format ouvert établi pour la préservation de bases de données, mais n’est utilisable que pour certains types de bases de données;
- Format léger de base de données relationnelles (SQLITE) : format simple utilisé pour les bases de données relationnelles.
Données tabulaires
Des données tabulaires sont des données disposées sous la forme de tables ou de tableaux, c’est-à-dire en ligne et en colonnes.
Le principal défi de ces formats est de composer avec les formules, les macros et le contenu intégré. Il faut aussi retenir que d’exporter un fichier tabulé vers un logiciel infonuagique, ou l’inverse, peut occasionner des pertes ou des erreurs.
Notez que le format SAV de SPSS est parfois recommandé, bien que sa documentation ne soit pas officielle et que sa rétrocompatibilité ne soit pas garantie.
Quelques formats recommandés :
- Données avec séparateurs (CSV, TXT, TSV) : fichiers simples, mais perte des formules et des relations entre les cellules;
- Microsoft Excel (XLSX) : format documenté et ouvert, mais non recommandé par certains dépôts, car il s’agit d’un format propriétaire complexe. Dans certains cas, il reste incontournable. Si utilisé, s’assurer de créer un fichier avec Office 2013 ou une version plus récente;
- OpenDocument (ODS, FODS) : généralement associé à LibreOffice, une suite logicielle développée comme équivalent ouvert des logiciels Microsoft. Structure basée sur le XML. La version 1.2 est certifiée en tant que norme ISO; la version 1.3 a obtenu le statut de standard.
Texte
Un document textuel peut être très simple, mais il peut également poser certains défis. Par exemple, l’utilisation d’un logiciel de traitement de texte dans le nuage facilite grandement la collaboration, mais l’extraction de ces documents pour les enregistrer localement peut affecter leur mise en forme et parfois la fonctionnalité des hyperliens. Vous devez aussi vous demander quelles versions garder, car il n’est pas pertinent de préserver toutes les modifications et les commentaires d’un texte. Ce peut être uniquement certaines versions intermédiaires avec la mouture finale.
Si le document textuel contient des objets intégrés, par exemple une image ou un tableau, le format sélectionné peut varier. Le choix de la police peut également affecter la préservation d’un document textuel.
Pour la compréhension du contenu, le texte peut également faire référence à d’autres documents. Ces relations sont importantes et doivent être maintenues.
Le format le plus approprié est celui qui conservera les fonctionnalités du document d’origine tout en permettant sa consultation à long terme.
Quelques formats recommandés :
- OpenDocument (ODT, OTT) : généralement associé à LibreOffice, une suite logicielle développée comme équivalent ouvert des logiciels Microsoft. Structure basée sur le XML. La version 1.2 est certifiée en tant que norme ISO; la version 1.3 a obtenu le statut de standard;
- Plein texte (TXT) : pas de mise en page, mais accessible facilement, ne dépend d’aucun programme, c’est d’ailleurs pourquoi il est très recommandé pour les fichiers LISEZ-MOI;
- PDF et PDF/A : format commun, souvent utilisé pour la préservation à long terme. Idéalement, s’assurer de ne garder que des versions 1.3 et suivantes;
- Publication électronique (EPUB) : format ouvert, très utilisé pour la publication numérique.
Images
La plupart des institutions de préservation numérique s’entendent sur les formats d’image les plus sécuritaires à utiliser. Les formats mentionnés ci-dessous sont matriciels, c’est-à-dire qu’ils se composent d’une série de points appelés pixels.
La qualité d’un format peut varier selon plusieurs facteurs comme la résolution (la plus connue), mais également l’espace colorimétrique ou la profondeur des couleurs. Souvent, plus une image est de qualité, plus le fichier est lourd.
Les formats propriétaires RAW ne sont pas recommandés pour la préservation à long terme. À l’opposé, une image créée avec un format compressé (p. ex., GIF, JPG, BMP) pourrait être préservée telle quelle. Avant de choisir un format d’image, les besoins et les moyens technologiques, humains et financiers doivent être évalués.
Quelques formats recommandés :
- Tagged Image File Format (TIFF) : format le plus utilisé pour la préservation d’images, mais lourd;
- Joint Photographic Experts Group 2000 (JP2) : plus léger que le TIFF, mais moins largement utilisé;
- Joint Photographic Expert Group (JPG) : très utilisé, mais l’image est compressée;
- Portable Network Graphics (PNG) : utilise une compression sans perte. Assez couramment utilisé, mais il n’est pas toujours pris en charge par les logiciels.
Audio
Un format audio est un contenant avec un ou plusieurs flux de données audio.
Un fichier audio comporte plusieurs caractéristiques à considérer qui influenceront le rendu et l’authenticité du son (p. ex., canaux, compression, nombre de bits par échantillon, nombre d’échantillons par seconde). Si le fichier d’origine est déjà compressé (p. ex., MP3, AAC), il n’est peut-être pas pertinent de le migrer vers un autre format.
Notez que le format MP3 est un format compressé généralement non recommandé pour la préservation à long terme, mais son adoption généralisée en fait un format assez fiable si le fichier d’origine a été créé ainsi.
Quelques formats recommandés :
- Free Lossless Audio Codec (FLAC) : fichier avec une compression sans perte, format plus léger que les WAVE;
- PCM WAVE (WAV) : format de qualité utilisé par plusieurs bibliothèques nationales lors de la numérisation;
- Broadcast WAVE (BWF) : permet l’ajout de métadonnées dans les fichiers;
- Ogg Vorbis (OGG) : format ouvert avec une meilleure compression que le MP3, mais moins populaire.
Vidéo
Les formats vidéo sont complexes, en constante évolution, et aucun ne fait consensus dans la communauté de préservation numérique.
Les formats vidéo sont généralement des contenants avec des images ou des flux de données vidéo et du son. Plusieurs caractéristiques (p. ex., couleur, compression, son) peuvent influencer leur préservation à long terme. Plus d’un format peut être utilisé pour un projet selon les besoins de création, de transformation, de diffusion ou autre.
Le défi le plus important est de trouver l’équilibre entre le poids du fichier et sa qualité.
Quelques formats recommandés :
- MP4 avec H.264 : format compressé surtout utilisé pour la diffusion, très largement répandu;
- QuickTime (MOV) ou Audio Video Interleaved (AVI) non compressé 4:2:2 : formats très lourds, mais de bonne qualité;
- Matroska avec codec FFV1 (MKV) : format standardisé pas trop compressé;
- Material Exchange Format avec JPG 2000 (MXF) : recommandé par certaines bibliothèques nationales, bien documenté, mais peu utilisé dans le public;
- Digital Picture Exchange (DPX) : format très lourd utilisé lors de la numérisation de pellicules filmiques.
Données géospatiales
Les données géospatiales sont également abordées dans le chapitre « Les données de recherche géospatiales au Canada: un survol des projets régionaux. » Ces données consistent généralement en une série de fichiers qui se complètent. Elles peuvent être intrinsèquement liées au système d’information géographique qui les exploite. Les métadonnées, les systèmes de référencement des coordonnées et la précision des coordonnées, c’est-à-dire à quel point une valeur observée et enregistrée est proche de la valeur réelle, doivent être préservées avec les données.
Lister des formats recommandés pour la préservation à long terme des données géospatiales est presque impossible vu leur complexité (p. ex., plusieurs types de structures différentes, beaucoup de formats propriétaires). Il n’y a aucun consensus à ce sujet, conserver le format d’origine peut s’avérer la meilleure solution.
Quelques formats recommandés :
- Geospatial Tagged Image File Format (GEOTIFF) : format ouvert qui permet d’ajouter des coordonnées géographiques à une image;
- Geographic Markup Language (GML) : format ouvert basé sur une norme, mais il est complexe;
- Keyhole Markup Language (KML, KMZ) : langage XML qui peut être associé à plusieurs autres fichiers qui doivent aussi être archivés (évitez d’utiliser des hyperliens). Format ouvert et largement utilisé;
- ESRI Shapefile (SHP SHX, DBF, PRJ, SBX, SBN) : format propriétaire, mais ouvert et très utilisé.
Aller plus loin : comment identifier un format?
Pour identifier un format de fichier, il suffit la plupart du temps de regarder sa section finale, c’est-à-dire son extension. Par exemple, le fichier « mes-notes.xlsx » est un fichier Excel alors que « ma-photo.jpg » est une image. Cette méthode a ses limites puisqu’une extension peut être modifiée, volontairement ou par erreur, ou être complètement inconnue. Certains systèmes d’exploitation sont même configurés par défaut pour cacher l’extension des fichiers, ce qui peut compliquer la tâche.
Le meilleur moyen d’identifier un format est d’utiliser sa signature. La signature d’un fichier correspond à une série de bits qui s’enchaînent de façon prévisible au début, à la fin ou aux deux extrémités d’un fichier.
Un outil comme PRONOM, très utilisé dans la communauté de préservation numérique, enregistre les signatures de début de fichiers (BOF pour Beginning of File) et de fin de fichiers (EOF pour End of File) et permet de récupérer l’identifiant unique d’un format. Par exemple, la signature x-fmt/398 identifie les JPG version 2.0. Connaître un format permettra aux personnes qui voudront consulter les jeux de données de savoir comment les ouvrir.
Quelques outils d’identification :
- PRONOM : http://www.nationalarchives.gov.uk/pronom/;
- Siegfried : https://www.itforarchivists.com/siegfried;
- FIDO : https://github.com/openpreserve/fido ou https://fido-js.glitch.me/.
Des outils qui permettent de visualiser les fichiers en code hexadécimal :
- HexEd.it : https://hexed.it/;
- Literate-binary : https://github.com/marhop/literate-binary.
Les métadonnées
Évaluation préliminaire
Répondez le plus honnêtement possible aux questions suivantes (Oui, Non) :
- Comprenez-vous ce que signifient « des données à propos de données »?
- Savez-vous qu’il existe plus d’un type de métadonnées?
- Savez-vous que certaines métadonnées s’inscrivent automatiquement dans vos fichiers?
- Savez-vous que votre beau-frère pourrait apparaître comme auteur d’un fichier que vous avez créé si vous avez utilisé son ordinateur?
- Réalisez-vous le pouvoir des métadonnées?
Si vous avez répondu non à plus de deux questions, cette section devrait vous être utile.
Une introduction aux métadonnées
Les métadonnées sont des éléments d’information utilisés pour décrire le contenu ou le contenant d’une ressource. Elles peuvent être structurées ou non.
Afin de mieux comprendre les métadonnées, commençons avec un exemple de données brutes :
CCTTTATCTAATCTTTGGAGCATGAGCTGGCATAGTTGGAACCGCCCTCAGCCTCCTCATCCGTGCAGAACTTGGACAACCTGGAACTCTTCTAGGAGACGACCAAATTTACAATGTAATCGTCACTGCCCACGCCTTCGTAATAATTTTCTTTATAGTAATACCAATCATGATCGGTGGTTTCGGAAACTGACTAGTCCCACTCATAATCGGCGCCCCCGACATAGCATTCCCCCGTATAAACAACATAAGCTTCTGACTACTTCCCCCATCATTTCTTTTACTTCTAGCATCCTCCACAGTAGAAGCTGGAGCAGGAACAGGGTGAACAGTATATCCCCCTCTCGCTGGTAACCTAGCCCATGCCGGTGCTTCAGTAGACCTAGCCATCTTCTCCCTCCACTTAGCAGGTGTTTCCTCTATCCTAGGTGCTATTAACTTTATTACAACCGCCATCAACATAAAACCCCCAACCCTCTCCCAATACCAAACCCCCCTATTCGTATGATCAGTCCTTATTACCGCCGTCCTTCTCCTACTCTCTCTCCCAGTCCTCGCTGCTGGCATTACTATACTACTAACAGACCGAAACCTAAACACTACGTTCTTTGACCCAGCTGGAGGAGGAGACCCAGTCCTGTACCAACACCTCTTCTGATTCTTCGGCCATCCAGAAGTCTATATCCTCATTTTAC
Les données brutes provenant de la recherche, dépourvues de métadonnées, sont intéressantes, mais peu parlantes pour la majorité des gens. Il est facile de se rendre compte qu’il y a un long chemin entre les données brutes extraites au cours d’un projet de recherche et leur signification utilisable par l’humain.
Si une généticienne décrit les données brutes ci-dessus, elle pourrait ajouter un premier niveau de métadonnées :
- >Seq1 [organism=Carpodacus mexicanus] C. mexicanus clone 6b actin (act) mRNA, partial cds
Un deuxième niveau de métadonnées serait la description du jeu de données dont fait partie cette séquence : le séquençage génétique, dans ce cas-ci de Carpodacus mexicanus, une espèce d’oiseau.
- Il s’agit d’une séquence nucléotidique de Carpodacus mexicanus (clone 6 b). (A = Adénine, G = Guanine, C = Cytosine, T = Thymine : bases d’acide nucléique).
Un troisième niveau de métadonnées permettrait de mieux caractériser les métadonnées précédentes en normalisant la nomenclature utilisée, ce qui facilitera le repérage et la relance dans d’autres corpus documentaires, tels les répertoires d’articles ou les dépôts institutionnels :
- Roselin familier – Génétique
- Séquence nucléotidique
Un quatrième niveau lierait ces métadonnées à d’autres informations pertinentes, comme une image.
Le principal rôle des métadonnées est de décrire et de favoriser le repérage. Toutes les métadonnées présentes devraient répondre aux tâches que réalisent les personnes utilisant des moteurs de recherche généraux ou académiques.
- Trouver – c’est-à-dire trouver des ressources correspondant aux critères de recherche;
- Identifier – établir le contexte des données et confirmer que la ressource décrite correspond à la ressource recherchée, ou bien établir une distinction entre deux ou plusieurs ressources possédant des caractéristiques semblables;
- Sélectionner – c’est-à-dire sélectionner une ressource pertinente pour les besoins de la personne qui cherche.
Les métadonnées nécessaires à la préservation sont celles qui assurent l’authenticité et l’accessibilité à long terme des ressources numériques et qui permettent la restitution des fichiers dans une forme accessible, lisible et intelligible. Vous devez être en mesure de gérer et de découvrir les métadonnées indépendamment des systèmes avec lesquels les ressources ont été créées.
Normalisation des métadonnées
Certaines métadonnées peuvent être normalisées, tels les noms des personnes responsables de la recherche, les méthodes de collecte et d’analyse des données, les titres des variables, les sujets abordés par la recherche ainsi que les couvertures temporelles ou géographiques. D’autres types de métadonnées obéiront tout simplement à des règles de description plus ou moins précises visant à en uniformiser la présentation, par exemple le titre attribué à un projet de recherche ou un résumé décrivant un jeu de données.
Plus les métadonnées sont normalisées, plus elles contribuent aux principes FAIR (pour plus de détails, voir le chapitre 2, « Les principes FAIR et la gestion des données de recherche » ) et plus elles permettent la repérabilité, l’accessibilité, l’interopérabilité et la réutilisation des ressources qu’elles représentent. Au moment de décrire une ressource, que ce soit une donnée ou un jeu de données, il faut cibler les métadonnées qui seront les plus utiles, car l’investissement en temps et en argent doit être rentable.
Plusieurs moyens peuvent être utilisés pour normaliser des métadonnées et il y a souvent une confusion terminologique, car certains termes sont utilisés pour décrire de façon erronée des réalités différentes.
Schémas de métadonnées
Pour bien comprendre ce qu’est un schéma de métadonnées, imaginez un formulaire en ligne avec des boîtes à remplir. Le schéma se cache derrière, il s’agit de ce qui va donner un sens aux renseignements que vous inscrirez dans les boîtes.
Certains schémas spécifient avec quelle syntaxe les éléments doivent être encodés alors que d’autres, tels Dublin Core et Data Documentation Initiative (DDI), ne procurent que des champs pour stocker l’information, sans donner d’indications sur la formulation du contenu ou sa syntaxe.
Prenons l’exemple du roselin familier. Un ornithologue amateur désire entrer une observation de l’oiseau dans un dépôt qui utilise le schéma Darwin Core. Il devra remplir les boîtes suivantes :
Boîtes à remplir | Éléments du Darwin Core qui se cachent derrière |
---|---|
Moment de l’observation | eventDate |
Observateur | identifiedBy |
Nom scientifique | scientificName |
Règne | kingdom |
Classe | class |
Ordre | order |
Famille | family |
Genre | genus |
Il existe un grand nombre de schémas, certains généralistes, d’autres disciplinaires. Un schéma normé et utilisé à large échelle peut être compris par les machines, ce qui augmente la visibilité et les possibilités de réutilisation des données décrites. Ces avantages sont perdus en créant un schéma de métadonnées maison.
En résumé, un schéma de métadonnées sert de structure et de contenant aux renseignements sur les jeux de données et, dans une certaine mesure, ajoute à leur signification.
Règles de descriptions
Les règles de description permettent de standardiser, normaliser et structurer de l’information portant sur les jeux de données. Ces règles vont prescrire la transcription des renseignements, l’utilisation des majuscules, l’ordre ou la syntaxe des éléments. Les règles sont indépendantes des schémas et sont utilisables dans n’importe quel dépôt de données.
Pour illustrer, utilisons l’exemple de l’ornithologue amateur de roselins. Il cherche à savoir si cette espèce a été aperçue dans sa région à une date spécifique. Il consulte trois dépôts qui utilisent le schéma Darwin Core. En cherchant avec la date du 10 octobre 2021, il ne trouve de résultats que dans un seul des dépôts. Pourquoi? Parce que les dépôts utilisent des règles de descriptions différentes pour les dates. L’un n’a aucune exigence, soit le dépôt où l’entrée du 10 octobre 2021 est repérée; l’autre demande la norme ISO 8601, soit AAAA-MM-JJTHH:MM:SSZ et où la date est indiquée comme 2021-10-10; et le dernier veut la forme JJMMAAAA et où l’entrée souhaitée est représentée par 10102021.
Des règles de descriptions claires sont également très utiles au niveau des noms de personnes, particulièrement dans le cas de noms communs. Il faut éviter d’utiliser des initiales, des homonymes ou des pseudonymes. Déposer des données permet de donner de la visibilité aux chercheurs et chercheuses, mais pour ce faire, il faut pouvoir identifier sans ambiguïté la personne responsable des données!
Le nom n’est parfois pas suffisant pour faire la distinction entre les gens et c’est pourquoi il est recommandé d’utiliser également des identifiants uniques pérennes comme l’ORCiD.
Vocabulaires contrôlés
Les vocabulaires contrôlés normalisent l’indexation et facilitent la recherche et le repérage d’informations. Il s’agit d’un ensemble de termes reconnus, normalisés et validés par un groupe ou une communauté de pratiques utilisés pour indexer ou analyser le contenu d’une ressource.
Si plusieurs termes désignent un même concept, un seul d’entre eux sera choisi et identifié comme le « terme préféré », les autres, considérés comme de possibles synonymes, seront mentionnés comme « termes rejetés ».
Revenons à l’ornithologue amateur qui, cette fois-ci, cherche de l’information sur le roselin dans un dépôt de données anglophone. Les données de ce dépôt sont indexées avec du vocabulaire libre, mais également avec le FAST (Faceted Application of Subject Terminology). Afin de s’assurer de récupérer l’ensemble de l’information sur l’espèce, l’ornithologue cherche le terme « roselin » dans le RVMFAST, un vocabulaire qui fait les équivalences entre les termes français et anglais. Il découvre que « House finch » est le terme choisi par le FAST. Il effectue donc sa recherche dans le dépôt avec succès et récupère toutes les données disponibles!
Les thésaurus et les répertoires de vedettes-matière sont les exemples les plus répandus et les plus connus de vocabulaires contrôlés. Il existe des vocabulaires encyclopédiques, mais également des vocabulaires spécialisés propres à certaines disciplines, par exemple ERIC, un thésaurus spécialisé en éducation ou WORMS, un catalogue des noms d’organismes marins.
Plusieurs de ces vocabulaires sont multilingues, ou gèrent des équivalents linguistiques, ce qui est d’un apport précieux pour l’interopérabilité.
Aller plus loin : ontologies
Une ontologie est une représentation théorique d’un domaine de connaissances dont les concepts sont liés par des relations sémantiques et logiques. Une ontologie comprend des vocabulaires, des définitions et une indication de la manière dont les concepts sont interdépendants entre eux. L’ontologie permet d’établir un ensemble de relations et de décrire des situations spécifiques dans un domaine donné. Une ontologie impose une structure sur le domaine et limite les possibles interprétations des termes. Plus simplement, l’ontologie permet d’offrir un langage commun à des blocs d’information liés entre eux. Elle est aux métadonnées ce que la grammaire est au langage.
Un des principaux avantages de l’utilisation d’une ontologie est l’interopérabilité, la réutilisation et le partage des métadonnées. La principale différence entre une ontologie et un vocabulaire contrôlé est que le vocabulaire contrôlé propose des relations sémantiques entre les éléments qui le composent, alors que l’ontologie proposera des relations fonctionnelles permettant de décrire précisément des situations.
Par exemple, dans un vocabulaire contrôlé, « roselin familier » est le terme préféré. Il est lié à « Carpodacus », qui est le terme général, ainsi qu’à « roselin du Mexique » et « Carpodacus mexicanus » qui sont deux termes rejetés. Dans une ontologie, « roselin familier » pourrait être lié grâce à la relation « habitat » aux termes « banlieue » et « semi-désert ». L’ontologie pourra également pointer vers la relation « alimentation » pour faire un lien entre le roselin et d’autres « granivore » et « insectivore ».
Types de métadonnées
La séparation des métadonnées en différentes catégories est variable selon les sources. Les regroupements suivants seront utilisés ici : métadonnées descriptives, structurelles, techniques, d’accès et de préservation. Les trois derniers types de métadonnées étant plus complexes, ils sont suggérés comme formation avancée.
Au-delà de ces catégories, les métadonnées peuvent également être classées par leur source (interne, externe), leur mode de création (manuel, automatique), leur statut (statique, dynamique), leur structure (structuré ou non) et d’autres caractéristiques. Pour plus d’information à ce sujet, veuillez consulter les ressources du présent chapitre.
Métadonnées descriptives
Comme leur nom l’indique, les métadonnées descriptives servent à décrire une ressource afin d’en connaître le contenu et d’en assurer le repérage, que ce soit par l’humain ou par la machine. Le titre d’une œuvre, le nom du créateur d’une ressource ainsi que sa date de création sont des exemples de métadonnées descriptives qu’on retrouve dans des dépôts de données, des catalogues de bibliothèques ou des bases de données.
Dans le cas de données de recherche, les métadonnées descriptives font généralement référence aux champs à remplir dans les dépôts de données. Outre les métadonnées précédemment nommées, si les données ne sont pas versées dans un dépôt, un fichier texte, tel un LISEZ-MOI, peut servir de support aux métadonnées descriptives.
Les métadonnées de projet décrivent le « qui, quoi, où, quand et pourquoi » du jeu de données, ce qui fournit un contexte pour comprendre le but de la collecte, la méthodologie et de l’utilisation des données.
Les métadonnées de l’ensemble des données sont plus granulaires. Elles décrivent et contextualisent les données avec plus de détails, par exemple les variables, les unités de mesure, les observations. Ces renseignements peuvent également être présents avec les données elles-mêmes.
Les règles à respecter pour les métadonnées descriptives ne sont pas anodines. Mieux un jeu de données est décrit, plus il sera repérable et plus il sera simple d’attribuer le crédit aux bonnes personnes. En ce sens, l’utilisation d’identifiants uniques comme les DOI et les ORCiD ainsi que de vocabulaires contrôlés tels que le FAST et son équivalent francophone, le RVMFAST, permet de désambiguïser les gens et les objets numériques. La normalisation des métadonnées soutient également l’interopérabilité entre les systèmes.
Le meilleur moyen de profiter du pouvoir des métadonnées descriptives consiste à :
- utiliser des identifiants uniques lorsque possible;
- utiliser des schémas de métadonnées déjà existants, bien établis dans votre communauté de recherche;
- normaliser les métadonnées qui peuvent l’être (p. ex., noms, sujets, coordonnées géospatiales, date), idéalement avec des vocabulaires contrôlés; et
- respecter les conseils suggérés par les dépôts pour remplir leurs champs de métadonnées, soit les champs obligatoires, les champs recommandés et les champs facultatifs.
Chaque discipline utilise des métadonnées, des schémas, des ontologies et des vocabulaires contrôlés qui leur sont propres. Pour avoir quelques exemples de ces particularités, consultez les chapitres « La gestion des données quantitatives en sciences sociales » et « La gestion des données de recherche qualitatives ».
Métadonnées structurelles
Les métadonnées structurelles permettent d’établir des liens entre les fichiers et à l’intérieur de ceux-ci. Il est autant question de la structure physique d’un fichier (les liens entre différentes parties de contenu) que de la structure logique d’un document (les liens entre des fichiers). Par exemple, vous pourriez avoir un article en PDF et les graphiques associés dans un fichier différent, en DOCX. Vous pourriez également avoir de l’information qui indique à quel endroit se situent le texte et les images dans une page ainsi que de l’information sur l’ordre des pages.
Certaines de ces métadonnées se génèrent automatiquement, d’autres doivent être entrées manuellement. Elles peuvent vous être utiles si vous êtes obligé de passer d’un format complexe à un format simple et que cela implique d’éclater vos données. Vous pourriez avoir à décrire les liens entre vos fichiers afin de représenter le format original. L’information peut être notée dans un fichier texte ou en utilisant du code.
Si vos fichiers ne sont pas indépendants ou qu’ils réfèrent à d’autres fichiers, ayez une pensée pour les métadonnées structurelles, car elles permettront la pleine compréhension de vos données.
Aller plus loin : autres métadonnées
Les métadonnées descriptives et structurelles sont assez faciles à circonscrire, bien que leurs limites puissent être discutables. Les frontières sont plus floues lorsqu’il est question des métadonnées techniques, d’accès et de préservation. Parfois, celles-ci sont regroupées sous le terme de « métadonnées administratives ». Les séparations ci-dessous sont utilisées à des fins d’explications uniquement.
La plupart des métadonnées ci-dessous se créent automatiquement à l’intérieur des fichiers et il n’est pas essentiel de les connaître. Vous pouvez modifier quelques-unes de ces métadonnées internes et certains logiciels permettent de les extraire pour les conserver séparément, mais il est recommandé de bien connaître les formats et les métadonnées avant de s’adonner à cette opération.
Comme indiqué précédemment, un changement de format peut être positif pour la préservation à long terme de vos fichiers. Une telle conversion peut avoir un impact sur les métadonnées internes du fichier. Les extraire du format original et les garder en accompagnement de l’objet numérique permet de documenter la provenance et l’authenticité de vos fichiers.
Métadonnées techniques
Les métadonnées techniques sont très liées aux formats et la plupart sont intégrées à l’intérieur des fichiers. Elles documentent la création du fichier (p. ex., logiciel utilisé, version, système d’exploitation, date de création et de dernière modification) et des caractéristiques sur les objets numériques qui varient selon le type de format.
Exemples de métadonnées techniques :
- Pour le texte : l’encodage, la structure éventuelle en XML…
- Pour l’image : la résolution, le profil colorimétrique, la profondeur d’encodage…
- Pour le son : le débit, le codec, la fréquence d’échantillonnage…
- Pour la vidéo : le nombre d’images par seconde, le profil colorimétrique, la durée…
- Pour des contenus Web : le format déclaré dans l’en-tête, la réponse du serveur collecté…
L’extraction des métadonnées techniques aide à prouver qu’un format est bien ce qu’il prétend être. Elle permet aussi de se renseigner sur un objet numérique inconnu ou corrompu.
Métadonnées d’accès et d’utilisation
Les métadonnées d’accès et d’utilisation comprennent de l’information qui permet à la communauté de recherche de télécharger des données et de les réutiliser en toute légalité.
Afin d’éviter les violations de droits, les métadonnées informent sur la provenance, les possibilités d’accès (p. ex., libre accès, embargo, formulaire de confidentialité) et d’utilisation (p. ex., libre, avec citation, consultation uniquement). Vous pouvez également y trouver des signatures numériques. Du côté de l’administration des dépôts, ce sont ces métadonnées qui donnent la possibilité d’effectuer des actions de préservation en toute légalité.
Métadonnées de préservation
Les métadonnées de préservation sont généralement liées à des schémas spécifiques comme METS ou PREMIS et aux actions effectuées sur les fichiers pour les préserver.
Elles regroupent tout ce qui touche à l’intégrité et à l’authenticité d’un objet numérique (voir le chapitre sur la préservation numérique). Minimalement, une somme de contrôle devrait être calculée. Avec les métadonnées de préservation, vous pouvez retracer toutes les modifications apportées à un fichier comme les changements de format, les vérifications des sommes de contrôle, les déplacements de supports physiques, etc. ainsi que ceux et celles qui ont effectué les changements.
Conclusion
Le titre de ce chapitre renvoie à un monde fascinant pour de bonnes raisons. Les formats de fichiers et les métadonnées sont de vastes sujets dont nous n’avons fait qu’entrouvrir la porte. Il n’est toutefois pas essentiel de maîtriser les secrets de tous les formats de fichiers et de tous les vocabulaires contrôlés pour s’en sortir de façon respectable et avoir des données accessibles et utilisables des années après la fin d’un projet de recherche.
Questions de réflexion
Éléments clés à retenir
- Le choix d’un format dépend de plusieurs facteurs, mais principalement des besoins et des capacités de ceux et celles qui les utilisent.
- Les meilleures données de recherche ne pourront être retrouvées et comprises y compris par ceux et celles qui les ont créées, sans métadonnées de qualité. La qualité est à privilégier sur la quantité.
- Faites des formats et des métadonnées vos alliés et non des obstacles, vous allez trouver en eux des amis un peu névrosés, mais fiables!
Lectures et ressources supplémentaires
Corti, L., Van den Eynden, E., Bishop, L., Woollard, M., Haaker, M., et Summers, S. (2019). Managing and sharing research data : a guide to good practice (2e éd.). Sage.
Formats
Ressources canadiennes
Bibliothèque et Archives nationales du Québec. (2020, mars) Guide concernant les formats recommandés par BAnQ. https://numerique.banq.qc.ca/patrimoine/details/52327/4076856
Bieman, E. et Vinh-Doyle. W. (2019). Stratégie de numérisation du patrimoine documentaire (SNPD) : Recommandations relatives aux formats de fichier pour la préservation numérique. Gouvernement du Canada, Réseau canadien d’information sur le patrimoine. https://www.canada.ca/fr/reseau-information-patrimoine/services/preservation-numerique/recommandations-formats-fichier-preservation-numerique.html
Bibliothèque et Archives Canada. (2022). Lignes directrices sur les formats de fichier à utiliser pour transférer des ressources documentaires. https://bibliotheque-archives.canada.ca/fra/services/gouvernement-canada/information-disposition/lignes-directrices-information/pages/lignes-directrices-formats-fichier-ressources-documentaires.aspx
Library and Archives Canada. (s.d.). File Format Guidelines for Preservation and Long-term Access Version 1.0. https://www.councilofnsarchives.ca/sites/default/files/LAC%20File%20Format%20Guidelines%20for%20Preservation%20and%20Long-term%20v1_2010-12_0.pdf
Autres ressources
Bibliothèque nationale de France. (s.d.). Fiches formats. https://github.com/hackathonBnF/FichesFormat/wiki
Caplan, P. (2008). What Is Digital Preservation? Library Technology Reports, 58(2). https://journals.ala.org/index.php/ltr/article/view/4224/4809/.
Caplan, P. (dir.). (2010). Digital Preservation [Special issue]. Information Standards Quarterly, 22(2). https://www.niso.org/sites/default/files/2019-07/ISQ%20Spring%202010.pdf
Centre de coordination pour l’archivage à long terme de document électroniques. (s.d.). Catalogue des formats de fichiers pour l’archivage. https://kost-ceco.ch/cms/kad_main_fr.html
Dappert, A. (2016). Digital Preservation Metadata and Improvements to PREMIS in Version 3.0 [Présentation PowerPoint]. https://www.loc.gov/standards/premis/v3/tutorialslides.pdf
Digital Preservation Coalition. (2015). Digital Preservation Handbook (2e éd.). https://www.dpconline.org/handbook
Digital Preservation Coalition. (s.d.). Technology Watch Publications. https://www.dpconline.org/digipres/discover-good-practice/tech-watch-reports
Digital Preservation Coalition et Artefactual System. (2021). Preserving Audio. http://doi.org/10.7207/twgn21-11
Digital Preservation Coalition et Artefactual System. (2021). Preserving Databases. http://doi.org/10.7207/twgn21-06
Digital Preservation Coalition et Artefactual System. (2021). Preserving Documents. http://doi.org/10.7207/twgn21-07
Digital Preservation Coalition et Artefactual System. (2021). Preserving GIS. http://doi.org/10.7207/twgn21-16
Digital Preservation Coalition et Artefactual System. (2021). Preserving Moving Images. http://doi.org/10.7207/twgn21-12
Digital Preservation Coalition et Artefactual System. (2021). Preserving Raster Images. http://doi.org/10.7207/twgn21-13
Digital Preservation Coalition et Artefactual System. (2021) Preserving Spreadsheets. http://doi.org/10.7207/twgn21-09
Federal Agencies Digital Guidelines Initiative. (s.d.). Guidelines, File Format Comparison Projects. https://www.digitizationguidelines.gov/guidelines/File_format_compare.html
Federal Records Management. (s.d.). Appendix A: Tables of File Formats. National Archives and Records Administration. https://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html
Library of Congress. (s.d.). Recommended Formats Statement. https://www.loc.gov/preservation/resources/rfs/
Loftus, C. (2019, 23 août). File format identification: A student project at the University of Sheffield Library. Digital Preservation Coalition. https://www.dpconline.org/blog/file-format-identification-sheffi-uni
McLellan, E. P. (2007) General Study 11 Final Report: Selecting Digital File Formats for Long-Term Preservation. InterPARES 2 Project. http://www.interpares.org/display_file.cfm?doc=ip2_file_formats(complete).pdf
UK Data Service. (s.d.). Recommended formats. https://ukdataservice.ac.uk/learning-hub/research-data-management/format-your-data/recommended-formats/
Vitam. (2020). Identification des formats de fichier. https://www.programmevitam.fr/ressources/DocCourante/autres/fonctionnel/20200131_NP_Vitam_preservation-identification-format-v2.0.pdf
Jeux sur les formats
Archives & Records Association. (2022). File Format or Fake? https://www.exploreyourarchive.org/archives/digital-preservation/.
Fortin, É. et Ruest, J.-F. (2022). Mille Formats. Bibliothèque de l’Université Laval. https://www5.bibl.ulaval.ca/formations/tutoriels-en-ligne/autres-tutoriels/mille-formats.
Métadonnées
Alliance de recherche numérique du Canada. (2021). RDM and Metadata for Discovery: What’s in it for researchers? [Vidéo]. YouTube. https://youtu.be/4fjPBSKMPlw
Baca, M. (dir.). (2016) Introduction to Metadata (3e éd.). Getty Publications. http://www.getty.edu/publications/intrometadata/.
Bascik, T., Boisvert, P., Cooper, A., Gagnon, M., Goodwin, M., Huck, J., Leahey, A., Stathis, K. et Steeleworthy, M. (2021). Guide des pratiques exemplaires sur les métadonnées de Dataverse Nord v 3.0 (Version 3). Zenodo. https://doi.org/10.5281/zenodo.5668962
Bibliothèque Université Laval. (s.d.). RVMFAST. https://rvmweb.bibl.ulaval.ca/rvmfast/rechercheSimple.do.
Canning, E., Brown, S., Roger, S. et Martin, K. (2022). The Power to Structure: Making Meaning from Metadata Through Ontologies. KULA: Knowledge Creation, Dissemination, and Preservation Studies, 6(3). https://doi.org/10.18357/kula.169
DoRANum. (s.d.). Métadonnées, standards, formats : comment décrire les données? https://doranum.fr/metadonnees-standards-formats/.
Dublin Core. https://www.dublincore.org/.
ERIC. https://eric.ed.gov/.
Guenther, R. (2017). Metadata for Digitization and Preservation. Part 1: Metadata schemes [Présentation PowerPoint]. Lyrasis.
Lacroix, C. (2017). Meilleures pratiques de gestion des métadonnées décrivant les données de recherches [Présentation]. Bureau de Coopération Interuniversitaire. https://libguides.pbuq.ca/ld.php?content_id=36275448
OCLC FAST. https://fast.oclc.org/
ORCiD. https://orcid.org/
Research Data Management Service Group. (s.d.). Guide to writing “readme” style metadata. Cornell University. https://data.research.cornell.edu/content/readme
RDA. (2017, 24 juillet). Supporting public procurement in Europe – 4 RDA Recommendations for open data sharing now published as ICT Technical specifications. https://www.rd-alliance.org/node/57123
UK Data Archives. (s.d.). Standards and procedures. https://www.data-archive.ac.uk/managing-data/standards-and-procedures/
WORMS: World Register of Marine Species. https://www.marinespecies.org/
Enchaînement précis de bits (0 ou 1) qui ensemble ont une signification (p. ex., un caractère, une opération à effectuer (instruction-machine), une sélection de couleur, un objet numérique).
Caractéristique d'un logiciel, d'un programme ou d'un appareil qui fonctionne avec un système avancé, mais qui peut également fonctionner avec les versions antérieures de ce système. (OQLF, 2008).
American Standard Code for Information Interchange (Code américain normalisé pour l'échange d'information). Norme informatique de codage de caractères. Elle définit 128 codes qui représentent les chiffres arabes de 0 à 9, les 26 lettres de l’alphabet latin en minuscule et en capitales ainsi que des symboles mathématiques et de ponctuation.
Standard pour le codage des caractères qui n’est pas lié aux formats ni aux codages des alphabets. Il permet l’échange de textes dans différentes langues.
Format dont les spécifications techniques sont publiques. Les renseignements qui permettent de comprendre le fonctionnement et la structure du format sont accessibles.
Suffixe attribué à un fichier afin de l’identifier. Par exemple, un fichier créé avec le logiciel Word portera l’extension DOCX.
Éléments d’information utilisés pour décrire le contenu ou le contenant d’une ressource. Elles peuvent être structurées ou non.
Format qui n'appartient pas à une entreprise.
Mécanisme de réduction de la taille des fichiers qui permet de conserver toutes les données originales. (Manuel de préservation numérique, s.d.).
Données disposées sous la forme de tables ou de tableaux, c’est-à-dire en lignes et en colonnes.
Document qui fournit des renseignements à propos d’un fichier ou d’un jeu de données. Il permet d’assurer la pérennité de l’interprétation correcte des données par toutes les personnes qui les consulteront.
Série de bits qui s’enchaînent de façon prévisible au début, à la fin ou aux deux extrémités d’un fichier.
FAIR est un acronyme qui signifie facile à trouver, accessible, interopérable et réutilisable. Les principes directeurs FAIR ont été élaborés en 2014 et visent à améliorer la réutilisation des données, tant par les machines que par les personnes.
Regroupement d’éléments destinés à décrire une ressource. Pour chaque élément, le nom et la sémantique (la signification de l’élément) sont spécifiés. Les règles de contenu (comment celui-ci doit être formulé), les règles de représentation (par exemple, les règles de capitalisation) et les valeurs d’élément autorisées (par exemple, à partir d’un vocabulaire contrôlé) peuvent être spécifiées en option, mais ce n’est pas toujours le cas.
Schéma de métadonnées simple et générique qui utilise 15 propriétés de base facultatives et répétables comme le titre, le créateur, le format et la date. Créé en 1995, Dublin Core est également une norme internationale (ISO 15836).
Schéma de métadonnées basé sur des normes et développé pour les données en sciences sociales.
Métadonnées qui sont dans un format qu’un ordinateur peut utiliser et comprendre.
Référence durable à un objet numérique qui fournit des informations sur cet objet indépendamment de ce qui lui arrive. Développé pour lutter contre des liens qui deviennent obsolètes (link rot), un identifiant pérenne peut être résolu pour fournir une représentation appropriée d'un objet, que celui-ci change d'emplacement en ligne ou qu'il soit mis hors ligne [traduction]. (CODATA Research Data Management Terminology, s.d.).
Identifiant unique pour les membres de la communauté de la recherche. Il est défini par un code numérique permanent ayant deux fonctions principales : lier la personne à ses activités de recherche, dont ses publications, et la distinguer de ses homonymes.
Liste de terminologies, mots et expressions utilisés pour indexer ou analyser du contenu et pour retrouver de l’information, généralement dans un domaine spécifique d’information [traduction]. (CODATA Research Data Management Terminology, s.d.).
Capacité des données ou des outils provenant de ressources non coopératives à travailler ou à communiquer entre eux avec un minimum d'effort et en utilisant un langage commun. L'interopérabilité exige que les données et les métadonnées utilisent des formats normalisés, accessibles et largement utilisés. Par exemple, lors de la sauvegarde de données tabulaires, il est recommandé d'utiliser un fichier CSV plutôt qu'un fichier propriétaire tel que XLSX (Excel). Un fichier CSV peut être ouvert et lu par davantage de logiciels qu'un fichier XLSX.
Équivalent d’une signature manuscrite sur papier qui offre des garanties sur l’authenticité de l’identité de la personne signataire.
Chaînes numériques ou alphanumériques uniques de longueurs potentielles variées produites par un algorithme cryptographique tel que CRC, MD5, SHA1 et SHA256. Aussi appelée empreinte numérique, même la plus petite modification apportée au fichier entraînera une modification complète de la somme de contrôle.