Méthodes de travail avec les données de recherche
11 La préservation numérique des données de recherche
Grant Hurley et Steve Marks
Objectifs d’apprentissage
À la fin de ce chapitre, vous pourrez :
- Identifier les menaces à l’accès à long terme des données de recherche numériques.
- Développer un plan pour la préservation d’un jeu de données particulier dans le contexte d’une Communauté d’utilisateurs cible (Designated community) et son cas d’utilisation anticipé.
- Déterminer si certaines actions de préservation potentielles peuvent contribuer de façon positive à l’accès à long terme d’un jeu de données particulier.
Introduction
La préservation numérique est couramment définie comme étant « série d’activités gérées nécessaires pour garantir un accès continu aux objets numériques aussi longtemps que nécessaire » (Digital Preservation Coalition, 2015, p. 282). Que le matériel soit d’abord sous forme numérique ou qu’il ait été numérisé à partir d’une autre source, l’objectif reste le même. La préservation numérique est un domaine relativement nouveau (du moins, en comparaison avec la préservation physique!), mais la préservation des données de recherche a fait partie du champ d’étude dès le départ. D’ailleurs, un des documents formatifs de la plupart des approches récentes à la préservation numérique – le modèle Open Archival Information System (Système ouvert d’archivage d’information ou OAIS) – a été développé par un consortium d’agences spatiales pour résoudre le problème de l’accès aux données historiques des missions spatiales..
L’objectif de ce chapitre est de présenter certains des concepts de base de la préservation numérique avec un accent sur les approches pratiques aux problèmes courants que vous pourrez avoir à affronter, ainsi que leurs solutions, lors de vos démarches vers la préservation à long terme des données de recherche.
Les menaces aux objets au fil du temps
Pour mieux comprendre les risques liés aux objets numériques (y compris aux données de recherche) au fil du temps, imaginons le scénario suivant : nous trouvons une pile de vieilles disquettes de 5,25 pouces. Nous croyons qu’elles pourraient contenir une forme quelconque de données utiles; des journaux de recherche d’un de nos prédécesseurs ou des données historiques dans notre domaine d’étude, etc. Tout ce qui nous importe, c’est de récupérer ce qui se trouve sur ces disquettes!
Toutefois, les lecteurs de ce type de disquettes ne font plus partie des modèles courants d’ordinateurs. En fait, ils peuvent être difficiles à trouver en bon état. Voilà donc notre première menace : l’obsolescence des médias. Notre média de stockage – dans ce cas-ci, la disquette – nécessite une configuration particulière de matériel informatique et de logiciels pour pouvoir être lu. Lorsque le matériel nécessaire n’est plus disponible (ou difficile à trouver), le média ne peut donc plus être utilisé et il est considéré comme obsolète.
Pour les fins de ce module, supposons que nous avons eu de la chance de mettre la main sur un lecteur de disquettes de 5,25 pouces. Nous insérons la disquette dans le lecteur et nous double-cliquons sur Finder ou Windows Explorer et… qu’est-ce qui se passe? L’ordinateur affiche que la disquette ne contient aucune donnée. Pourquoi? Il y a deux raisons potentielles. Il est en effet possible que la disquette ne contienne aucune donnée, mais il est aussi possible que nous soyons victimes d’une deuxième menace : la dégradation du média. Il s’agit de la détérioration dans le temps du média ou de l’information qu’il contient. La plupart des médias numériques ont une durée de vie limitée et, une fois disparues, les données peuvent être difficiles, voire impossibles à récupérer.
Toutefois, peut-être que les données sont toujours présentes, mais qu’elles ne peuvent pas être lues. Elles ont probablement été générées sur des modèles d’ordinateurs plus anciens et il est possible que le système d’origine ait inscrit les données sur la disquette d’une manière différente de celle des ordinateurs plus modernes. Sans logiciel pour aider l’ordinateur moderne à lire la disquette, il est difficile de déterminer la présence de fichiers, le nom de ces fichiers et où un fichier commence et l’autre finit. Toutes ces fonctions font partie d’une structure de données appelée système de fichiers.
Supposons maintenant que nous avons réussi à naviguer le système de fichiers de la disquette, soit parce que l’ordinateur a été capable de le lire, soit parce que nous avons installé un élément qui en a permis la lecture. Il pourrait y avoir un autre problème à affronter : les fichiers eux-mêmes peuvent être inintelligibles aux applications couramment utilisées dans l’environnement informatique actuel. Les fichiers ont peut-être été créés avec un ancien programme de base de données ou ont été encodés dans un format qui ne peut être accessible qu’avec un programme de visualisation propriétaire qui n’est plus disponible. Ces problèmes de systèmes de fichiers sont des exemples d’obsolescence des formats.
Pour terminer, si nous réussissons à accéder à la disquette et aux fichiers qu’elle contient, à lire ces fichiers et à comprendre la façon dont ils sont décodés, il y a toujours un risque que certaines informations cruciales sur les données soient manquantes. S’il s’agit de données d’observation, certaines informations sur le quand, comment et où les données ont été recueillies peuvent être manquantes. S’il s’agit de données sous forme d’images, il est possible qu’il nous manque des informations sur ce que les images sont censées représenter. Pour tout type de données, il pourrait y avoir des informations manquantes, telles que qui les a créées et s’il y a des restrictions de propriété intellectuelle qui s’appliquent. Selon le cas d’usage, ces questions peuvent n’être d’aucun intérêt, mais si nous désirons effectuer un travail académique rigoureux, nous devons nous soucier de ce dernier problème du scénario : la perte de la provenance.
Ressentez-vous une certaine angoisse? La bonne nouvelle, c’est que plusieurs personnes ont déjà été confrontées à ce genre de problème. Le domaine plus global de la préservation numérique est d’ailleurs consacré à identifier, éviter et corriger la majorité de ces problèmes. Avant de discuter de la façon de les traiter, regardons d’abord quelques-uns des principes fondamentaux.
Les objectifs de la préservation numérique
La Digital Preservation Coalition (DPC) définit la préservation numérique comme étant la « série d’activités gérées nécessaires pour garantir un accès continu aux objets numériques aussi longtemps que nécessaire » (2015, p. 282). Passons à travers les éléments qui composent cette définition pour expliquer les objectifs plus larges de la préservation numérique.
Commençons par « objets numériques » puisqu’ils sont la raison d’être des activités de préservation numérique. Que sont les objets numériques? Le mot « objet » suggère une forme physique; les objets numériques ont toujours une incarnation physique quelque part, qu’il soit stocké sur une disquette de 5,25 pouces, un serveur, un disque dur externe, une clé USB ou un CD. Chacune de ces méthodes de stockage encode les informations d’une manière quelconque, soit par fluctuation magnétique (serveurs, disquettes et plusieurs disques durs externes), par charge dans les cellules (lecteurs flash) ou par alvéoles (CD). La première couche de médiation est suivie par plusieurs autres couches. Les documents analogiques n’ont pas cette complexité. Prenons, par exemple, un document textuel tel un mémorandum. En format papier, il y a deux niveaux immédiats de médiation : la feuille de papier physique (est-elle intacte et complète ou endommagée?) et le texte écrit dessus (est-il lisible ou effacé? Quelle est la langue du texte?). L’équivalent numérique du mémorandum en format DOCX de Microsoft Word doit d’abord être extrait d’un médium de stockage comme une suite d’octets qui, regroupés, forme une séquence de bits (aussi connu comme un train de bits) avec un début et une fin distincts. Règle générale, plusieurs séquences de bits sont nécessaires pour composer un fichier. C’est le cas du format DOCX qui est composé de plusieurs dossiers et de fichiers texte XML regroupés dans une archive ZIP. Il est facile d’oublier qu’un fichier numérique s’appelle fichier parce qu’il regroupe plusieurs petits éléments d’informations, tout comme un fichier papier pourrait contenir plusieurs documents. Dans d’autres cas, des fichiers individuels multiples peuvent être accessible, mais ils doivent être exploités ensemble pour obtenir le résultat escompté, tel que des scripts utilisés pour traiter des saisies de données ou une collection de fichiers texte en format HTML, CSS et JavaScript, ainsi que des images et des PDF qui constituent ensemble un site Web. Dans sa plus simple expression, une seule séquence de bits constitue l’entièreté d’un fichier texte.
Dans l’un ou l’autre des cas, les séquences de bits doivent être interprétées selon une structure particulière : le format de fichier. Un format de fichier est « une convention qui établit les règles sur la façon de structurer et de stocker l’information dans un fichier[1] » [traduction] (Owens, 2018, p.47). Les formats de fichiers relient les séquences de bits et les systèmes de fichiers aux logiciels. Face à un format de fichier particulier, les systèmes d’exploitation permettent l’installation d’éléments particuliers d’un logiciel qui pourront lire, interagir et sauvegarder les fichiers dans ce format. Les formats ont aussi l’avantage de soutenir les échanges; puisque chaque fichier dans son format particulier est structuré de la même façon, il devient lisible pour différentes applications ou divers systèmes qui souhaitent ouvrir un fichier dans ce format. Mais le format de fichier est une construction humaine : « toute conversation autour des formats doit partir du principe qu’ils sont des conventions qui établissent la façon dont les fichiers devraient être structurés, il ne s’agit pas d’une vérité essentielle[2] » [traduction] (Owens, 2018, p.120). Certains formats de fichiers, surtout ceux liés à un logiciel, ne sont pas accessibles sans ce logiciel et contraignent les personnes qui l’utilisent à un produit commercial particulier. Les formats de fichier peuvent aussi changer au fil du temps pour répondre aux exigences des logiciels et des personnes qui les utilisent; le logiciel sous une version peut être incompatible avec un format de fichier d’une version antérieure. Les logiciels spécialisés (utilisés dans les domaines de recherche comme les sciences humaines, les sciences sociales ou la biologie) peuvent utiliser des formats de fichier uniques ou être exploités par différentes versions mal documentées ou soutenues d’un logiciel.
Un logiciel nécessite un ordinateur physique pour être exploité; cet ordinateur est composé de pièces de matériel informatique telles que la mémoire, les processeurs et l’espace de stockage. Un système d’exploitation tel que Windows, Mac OSX ou Linux est un morceau de logiciel qui contrôle tous ces composants, en plus de certains autres comme les périphériques d’entrée (clavier, souris), les périphériques de sortie (afficheur, imprimante), le stockage et le réseau. Les systèmes d’exploitation contrôlent également l’accès au système de fichiers de l’ordinateur; c’est ce qui établit les règles sur la façon de stocker et de récupérer les données ainsi que l’emplacement du médium de stockage. En raison des mises en œuvre particulières de chacun des systèmes d’exploitation, certains logiciels ne peuvent fonctionner que sur des systèmes d’exploitation spécifiques ou être limités à certaines de ses versions.
Examinons maintenant cette notion de « l’accès continu ». Cet accès est affecté par le niveau d’ouverture, c’est-à-dire si l’objet numérique est disponible gratuitement en ligne, sur demande ou s’il est limité à des individus précis ou communautés particulières en fonction des coûts, de la confidentialité, de droits d’auteur ou d’autres restrictions. L’accès continu peut être menacé par des questions telles que la perte entraînée par une annulation d’abonnement ou par l’arrêt des activités d’un fournisseur de service. À cet effet, les responsables de la préservation numérique doivent s’assurer de conserver au fil du temps les informations sur la provenance ainsi que les droits à l’accès des objets numériques. La norme de facto pour cette information est celle du PREMIS pour les métadonnées, gérée par la Library of Congress; elle fournit la structure pour l’enregistrement d’informations détaillées sur les actions prises pour conserver le matériel numérique au fil du temps.
Pour terminer, la définition du DPC reconnaît que les objets numériques ne pourront pas tous être conservés à jamais; « aussi longtemps que nécessaire » est donc plus réaliste. Certains objets ont une valeur immédiate, mais cette valeur peut disparaître au fil du temps. D’autres objets doivent être supprimés, conformément aux législations sur la confidentialité ou aux règles d’éthique de la recherche. Idéalement, les responsables de la préservation numérique confient le travail de maintenance à d’autres qui le poursuivent. C’est la deuxième signification de « gestion », telle que décrite plus haut; le travail de préservation numérique doit se faire à l’intérieur d’une structure – institutionnelle ou autre – pour qu’il puisse durer plus longtemps qu’une prise en charge par des individus particuliers.
La préservation numérique versus la curation
Si la préservation numérique est une série de procédés de gestion dont l’intention est de conserver un accès dans le temps, il faut donc se poser la question suivante : compte tenu de toutes les exigences en matière de ressources humaines et techniques, que faut-il préserver? Le sujet de l’établissement des priorités de préservation – ce qui permet d’identifier les objets auxquels un établissement choisit ou ne choisit pas d’accorder des ressources pour la préservation – s’inscrit dans le domaine plus large de la curation numérique et, plus particulièrement, dans la partie évaluation du processus de curation. L’évaluation, telle que précisée dans le Guide d’évaluation pour la préservation des données de recherche, rédigé par Jonathan Dorey, Grant Hurley et Beth Knazook, implique la détermination d’une valeur. Dans le cas des données de recherche, qui sont généralement déposées par une créatrice ou un créateur en relation avec un établissement, la question devient donc : est-ce que ce jeu de données possède une valeur éventuelle suffisante pour justifier son acquisition et sa préservation? Si votre établissement a comme mission de faire de la préservation à long terme, vous aurez besoin d’accéder aux sujets ou domaines de connaissances appropriés pour pouvoir établir la valeur. Vous pouvez également consulter les stratégies ou politiques en matière de développement de collections pour déterminer si un jeu de données candidat s’aligne avec les priorités de votre établissement. De plus, une expertise particulière en préservation numérique peut être nécessaire pour identifier à quel point les objets numériques peuvent être préservés, les types d’interventions de préservation nécessaires et les ressources nécessaires pour effectuer le travail. Ce procédé est une évaluation technique. Une fois la valeur d’un jeu de données établie, les activités subséquentes de curation peuvent miser sur son amélioration par le biais de contrôles de qualité, de tests sur le code et d’amélioration de la documentation et des métadonnées. Vous pourrez aussi avoir à identifier des fichiers individuels d’un jeu de données qui ne devraient pas être retenus ou inversement, des fichiers manquants qui doivent être recueillis. Une liste exhaustive de ces types d’activités est offerte par le flux de travail CURATE(D) (en anglais uniquement) du Data Curation Network ainsi que le Guide pour la curation de Dataverse, préparé par l’Alliance de recherche numérique du Canada.
Conformément à la définition de préservation numérique du DCP qui parle de la notion du « aussi longtemps que nécessaire », le choix de conserver un jeu de données n’est pas permanent; les jeux de données peuvent être revus par le biais d’un processus de réévaluation pour déterminer s’ils maintiennent toujours une certaine valeur pour l’établissement et sa communauté.
Les Communautés d’utilisateurs cibles
Les possibilités d’interventions de préservation pour une série particulière d’objets numériques qu’un établissement décide de conserver sont nombreuses, alors les responsables de la préservation peuvent se demander quels critères doivent être utilisés pour faire leur choix. La norme Open Archival Information System (Système ouvert d’archivage d’information ou OAIS) contient un concept utile pour aider dans ce travail : la notion des Communautés d’utilisateurs cibles. La norme OAIS les définit ainsi:
Un groupe identifié d’Utilisateurs potentiels, susceptibles de comprendre un ensemble donné d’informations. La Communauté d’utilisateurs cible peut être constituée de plusieurs communautés d’utilisateurs. La Communauté d’utilisateurs cible est définie par l’Archive et sa définition peut évoluer au cours du temps (CCSDS, 2012, p. 1-9).
Plusieurs bibliothécaires et archivistes ont trouvé ce concept difficile à assimiler; le fait de restreindre leurs activités autour d’un groupe particulier peut sembler contradictoire à leur mission professionnelle qui est d’assurer un accès large et ouvert au grand public (Bettivia, 2016, p.5). Identifier une Communauté d’utilisateurs cible n’exclut pas de préserver des objets numériques pour la population en général. Les responsables de la préservation doivent tenir compte des besoins des utilisatrices et utilisateurs dans la prise de décisions pour la préservation, y compris les résultats des interventions de préservation, les métadonnées rendues disponibles et la série de services courants qui permet l’accès (Marks, 2015, p.16). Autrement dit, « faire de la préservation pour quelqu’un plutôt que de préserver quelque chose[3] » [traduction] (Bettivia, 2016, p.3). Plusieurs établissements ont implicitement des Communautés d’utilisateurs cible, notamment les membres du corps professoral, la communauté étudiante et le personnel dans un établissement universitaire, la population d’un village ou d’un territoire ou le personnel d’un organisme privé, et ce, même s’ils détiennent un mandat auprès du grand public. Désigner une Communauté d’utilisateurs cible oblige à rendre ces prises en charge explicites. Des communautés primaires, secondaires et tertiaires peuvent être désignées, chaque groupe ayant des spécificités moins restreintes, regroupant ainsi un large ensemble de membres sans avoir à faire d’impossibles promesses de préserver tous les objets numériques au nom du monde entier.
En envisageant la préservation en fonction de communautés ciblées, l’information préservée doit rester immédiatement compréhensible aux membres de cette Communauté d’utilisateurs cible. La norme OAIS définit « immédiatement compréhensible » comme étant « la qualité propre d’une information suffisamment documentée pour être interprétée, comprise et utilisée par la Communauté d’utilisateurs cible sans recourir à des ressources particulières difficiles d’accès comme par exemple des personnes physiques » (CCSDS, 2012, p.1-11). Autrement dit, le matériel devrait être utilisable par les membres de la communauté sans aide externe. En tant que curatrice ou curateur, vous devez être au courant des connaissances des membres de la Communauté d’utilisateurs cible et vous devez leur fournir des objets numériques qui leur seront accessibles. Dans le contexte de la gestion des données de recherche (GDR), il est courant de présumer du niveau d’expertise liée au domaine ou à la discipline dans laquelle les données ont été créées. Par exemple, un dépôt de données en sciences sociales peut présumer que les membres de sa communauté principale (les chercheuses et chercheurs en sciences sociales) savent utiliser des logiciels d’analyse statistique; il est donc suffisant de préserver et fournir des données tabulaires en format brut qui peuvent être utilisées dans R ou un autre logiciel. Si le dépôt souhaite s’ouvrir aux gens qui n’ont pas cette expertise, il pourrait être nécessaire de fournir d’autres options d’accès telles qu’une interface visuelle interactive pour faire des requêtes de données tabulaires. De cette façon, à certains niveaux de l’infrastructure de préservation et d’accès, « il y a de multiples services et, à un moment donné, la spécificité d’un sujet peut nécessiter la mise en place d’une approche différente pour servir les différentes Communautés d’utilisateurs cible[4] » [traduction] (Bettivia, 2016, p.6). En fin de compte, comme l’observe McGovern dans Digital Preservation Management Model Document (2016), « une archive numérique peut être sombre, peu lumineuse ou éclairée, mais la preuve absolue d’une préservation réussie est dans la capacité de fournir un accès significatif à long terme[5] » [traduction]. Autrement dit, si le matériel numérique ne peut être utilisé, c’est qu’il n’a pas été préservé de manière utile.
Les propriétés significatives
Après avoir établi le concept de Communauté d’utilisateurs cible, nous pouvons maintenant aborder un autre concept important qui découle directement de la Communauté d’utilisateurs cible et de ses besoins : les propriétés significatives. Le glossaire de la Digital Preservation Coalition définit les propriétés significatives comme les « caractéristiques des objets numériques et intellectuels qui doivent être préservées dans le temps afin de garantir l’accessibilité, la facilité d’utilisation et la signification des objets et leur capacité à être acceptés comme (preuve de) ce qu’ils prétendent être » (2015, p. 283).
Les propriétés significatives sont importantes parce qu’elles découlent des perspectives et besoins des Communautés d’utilisateurs cible. Plus précisément, elles sont les propriétés d’un objet numérique précis qui répond aux besoins de la Communauté d’utilisateur cible. Ces propriétés significatives peuvent varier selon l’objet numérique et même dans le cadre d’un seul objet, elles peuvent être aussi différentes que les Communautés d’utilisateurs cible qui pourront y accéder. Cela étant dit, il existe plusieurs propriétés significatives importantes qui s’appliquent à presque tous les cas.
Une de ces propriétés significatives clés est le format. Comme mentionné plus tôt, les objets numériques ont souvent besoin de morceaux particuliers de logiciels pour pouvoir être accessibles et la capacité du logiciel à s’exécuter dépend de sa capacité à interpréter le sens des données codifiées dans le fichier – le format de fichier. Les différents types de données de recherche, telles que les données tabulaires, les documents textes, les images et les enregistrements audio ou vidéo, peuvent utiliser différents formats de fichiers pour stocker les informations de façon précise et efficace.
Les métadonnées sont une autre des propriétés significative des données de recherche; elles peuvent inclure des informations sur l’autorat des données, la méthodologie, la couverture et autres détails pertinents. Des métadonnées précises et complètes sont essentielles pour bien comprendre le contexte et la signification des données, en plus de permettre la citation et l’attribution exactes. Dans le domaine des données de recherche, les métadonnées peuvent être très spécialisées, au même titre que les données. Par exemple, les données d’une enquête historique utilisées pour appuyer une recherche en sciences sociales peuvent être décrites avec la norme DDI pour les métadonnées qui prône une description robuste de tout détail susceptible d’être pertinent tel que la population étudiée, la méthodologie d’échantillonnage, etc. Un jeu de données recueilli dans le contexte d’un projet d’astronomie n’aura vraisemblablement pas besoin de ces types de balises, mais en nécessitera plutôt une série d’autres liées notamment à l’orientation du télescope, aux conditions météorologiques et autres. Pour plus d’informations sur les métadonnées et sur les considérations importantes dont il faut tenir compte en choisissant des formats de fichiers pour une longue durée de vie, veuillez consulter le chapitre 9, « Un aperçu du fascinant monde des formats de fichiers et des métadonnées. »
En plus de ces propriétés techniques, les données de recherche peuvent avoir d’autres propriétés significatives reliées à leur contenu ou au contexte. Par exemple, les données peuvent faire partie d’une étude ou d’un projet de recherche plus large ou peuvent être liées à d’autres jeux de données ou objets numériques. Il est important de tenir compte de ces liens et rapports en préservant les données de recherche pour assurer que les données puissent être comprises et utilisées dans le contexte où elles ont été créées. Il est difficile de se prononcer sur la façon courante de stocker ces propriétés significatives parce que les moyens dépendent du contexte dans lequel se trouve la chercheuse, le chercheur ou le groupe ayant recueilli les données ou du dépôt dans lequel les données se retrouvent. Vous pouvez vous poser quelques-unes des questions suivantes quand vous évaluez les propriétés dont il faut tenir compte :
- Le jeu de données fait-il partie d’une série?
- Le jeu de données a-t-il d’autres versions?
- Ces données appuient-elles une publication particulière?
- Ces données représentent-elles un sous-ensemble d’un jeu de données plus large?
Les propriétés significatives peuvent, dans un premier temps, être complexes à identifier, mais l’élément le plus important à se rappeler, c’est qu’elles sont l’expression des besoins de la Communauté d’utilisateurs cible. En cas de doute, vous n’avez qu’à consulter un membre de la communauté ou à réfléchir à quels aspects des données sont essentiels pour assurer leur utilisation par cette communauté.
La préservation numérique dans le contexte des données de recherche
Les actions de préservation
Dans cette section, nous passons des cadres conceptuels à la pratique au quotidien de la préservation numérique par l’entremise de l’identification, de la performance et de l’évaluation des actions de préservation.
Quatre grandes catégories d’actions courantes de préservation sont abordées ci-dessous :
- Les sommes de contrôle et la préservation au niveau des bits établissent l’intégrité et une assurance de base que le matériel demeure intact et complet au fil du temps. La préservation au niveau des bits nécessite que les organismes identifient des stratégies robustes pour le stockage de préservation; elle est associée à la prévention des problèmes liés à l’obsolescence et à la dégradation des médias.
- Les métadonnées techniques sont généralement extraites de fichiers ou de séquences de bits, ce qui peut fournir des renseignements sur la façon de gérer les fichiers et les séquences de bits au fil du temps. L’information la plus couramment extraite à cette fin est l’identification des formats de fichiers. L’extraction des métadonnées techniques aide à réduire les risques associés à l’obsolescence des formats et à la perte de la provenance.
- La validation des formats de fichiers prend l’information obtenue du processus d’identification et, dans le cas de certains formats, évalue si le fichier en question répond aux normes de base en matière de structure et de qualité qui ont été définies pour ce format. Ce processus est lié à l’obsolescence des formats, mais peut aussi aider à identifier des dégradations potentielles au niveau des supports.
- Pour terminer, les actions de normalisation et de migration peuvent être prises pour assurer que les données ne soient pas enfermées dans un format oublié ou propriétaire. Une fois de plus, l’action répond au problème de l’obsolescence des formats.
Bien que cette liste ne comprenne pas toutes les activités possibles de préservation numérique, ces fonctions comptent parmi les plus couramment mises en place sur une base régulière en utilisant des outils et des procédés particuliers. Elles représentent le travail pratique de la préservation numérique, qu’elles soient exécutées manuellement, ou plus souvent, par le biais de scripts ou de logiciels de traitement pour la préservation. Quand vient le temps d’évaluer les capacités d’un dépôt à préserver des objets numériques, il est primordial d’identifier la présence (ou l’absence) de ces fonctions.
Les sommes de contrôle, la préservation au niveau des bits et le stockage de préservation
La préservation au niveau des bits est généralement considérée comme étant la base en matière d’actions que peut prendre un organisme pour appuyer la préservation à long terme. Cette approche vise à garantir que les fichiers conservent leur intégrité (c’est-à-dire qu’ils demeurent intacts et sans modification dans l’ordre de la séquence des bits) et que les fichiers soient stockés dans de multiples emplacements pour les protéger contre la perte, la modification ou la corruption accidentelle. La préservation au niveau des bits ne garantit pas que le contenu ou le format des fichiers puisse être utilisé/accessible à l’avenir, elle assure simplement que les fichiers soient intacts. Les actions de préservation de base comprennent : pendant le traitement ou le stockage des données en vue de la préservation, la personne responsable de la préservation exécute un algorithme de somme de contrôle aux fichiers téléversé dans le système et enregistre les résultats. Selon un horaire variable, le responsable exécute une nouvelle vérification de la somme de contrôle à une date ultérieure. La deuxième vérification (et toutes celles qui suivent) est appelée le contrôle d’intégrité. Si les résultats de la deuxième vérification correspondent à celles de la première, les objets numériques conservent leur intégrité. Chaque fois qu’un contrôle de l’intégrité est effectué, il est recommandé de stocker les résultats accompagnés de la date et de l’heure dans une base de données ou à un autre emplacement.
Les sommes de contrôle désignent des chaînes numériques ou alphanumériques uniques de longueurs variées produites par un algorithme générateur de sommes de contrôle tel que CRC, MD5, SHA1 et SHA256; le résultat de l’algorithme dépend du contenu du fichier. Quand les contenus d’un fichier sont modifiés de quelque façon que ce soit, la valeur de la somme de contrôle variera, indiquant que l’intégrité du fichier est atteinte et qu’il doit être remplacé par une autre copie. CRC, MD5 et SHA1 ne sont pas considérés comme des algorithmes sécurisés pour la cryptographie, mais ils sont quand même couramment utilisés pour détecter des problèmes d’intégrité. Pour une discussion sur le sujet, vous pouvez consulter le guide de Matthew Addis, Which checksum algorithm should I use? En effet, les sommes de contrôle constituent la composante centrale de nombreuses infrastructures informatiques. La clé, c’est d’identifier quand et comment elles sont exécutées. Les fichiers sont plus susceptibles de perdre leur intégrité en cours de transfert d’un système à l’autre, comme lors du téléversement des fichiers à des stockages de préservation à distance sur le Web. Idéalement, une somme de contrôle est effectuée localement sur l’ordinateur et celle-ci est ensuite comparée aux résultats de la vérification de l’intégrité une fois à destination. Gardez en tête qu’il existe une variété d’outils qui peuvent automatiser ce travail à votre place; parmi des exemples courants, des fichiers stockés sous format BagIt utilisent des outils mis en œuvre par la bibliothèque Python BagIt.
La deuxième composante importante d’une stratégie de préservation au niveau des bits est la création de multiples copies. Si vous identifiez un problème d’intégrité, la solution idéale est de remplacer la « mauvaise » copie avec sa version intacte. Le fait d’avoir plusieurs copies, idéalement dans différents emplacements, vous permet donc de limiter les problèmes d’intégrité qui peuvent survenir. Les différentes méthodes de stockage pour la préservation varient beaucoup selon les ressources accessibles aux organismes qui préservent. Les seules méthodes possibles pour certains organismes sont la création de copies distinctes stockées sur des disques durs externes, ou dans un système RAID, ou un réseau de stockage local (avec idéalement, une copie de sauvegarde). Les organismes qui font de la préservation à plus grande échelle peuvent utiliser des systèmes de sauvegarde sur bande magnétique. Et les services tiers – tels que le stockage infonuagique ou autre réseau de stockage dupliqué – peuvent répondre aux besoins des institutions de mémoire. Dans le document Levels of Digital Preservation Matrix du National Digital Stewardship Alliance (NDSA), la section sur le stockage est utile pour aider à déterminer la quantité nécessaire de copies et pour identifier un emplacement de stockage; les options varient de deux copies conservées dans des endroits séparés (mais dans un même lieu géographique) à « au moins trois copies dans des lieux géographiques soumis à des menaces de nature différentes» (Ledoux et al., 2019). Il est important de noter que les niveaux NDSA n’ont pas besoin d’être appliqués uniformément à tous les objets numériques; plusieurs établissements appliquent différentes stratégies de stockage pour préserver différentes catégories ou genres d’objets numériques. Vous pouvez aussi consulter Digital Preservation Storage Criteria de Schaefer et al. (2018) qui propose une structure pour l’évaluation des différentes options de stockage pour la préservation.
L’identification des formats de fichiers
L’identification des formats de fichiers est généralement la première étape dans le travail du responsable de la préservation numérique, une fois que l’intégrité et le stockage sécuritaire de l’objet numérique à préserver sont confirmés. Connaître le format (et parfois la version particulière de ce format) peut vous aider à déterminer les façons d’accéder au fichier et de le conserver dans le temps. Par conséquent, la communauté de GDR se soucie particulièrement de bien comprendre les formats de fichiers. Les chercheuses et chercheurs sont encouragés à exporter les fichiers de données finaux dans des formats non propriétaires et des établissements, tels que le Data Archiving and Network Services (DANS) des Pays-Bas, ont établi des préférences de formats de fichiers pour l’inclusion dans leur dépôt (2022).
Comme il est nécessaire de pouvoir identifier de façon fiable les formats de fichiers, des procédés ont été établis pour vous aider. Vous pouvez généralement déduire le format d’un fichier par son extension. Toutefois, les formats propriétaires, obsolètes ou spécialisés peuvent être plus difficiles à identifier et souvent, les systèmes permettent de changer l’extension d’un fichier sans modifier son contenu. La clé, c’est de trouver un outil qui peut identifier un format de fichier par sa signature. La signature est une séquence d’octets qui survient de façon prévisible au début ou souvent à la fin d’un fichier. Pour que cette série d’octets soit un marqueur fiable, chaque instance d’un format de fichier particulier devrait inclure la signature. Certains formats de fichier – tels que les fichiers de texte brut – n’ont pas de signature de sorte que le format du texte doit être déduit à partir du contenu et de la structure du fichier.
Les outils qui identifient les signatures de format de fichier interrogent généralement la base de données PRONOM, gérée par les archives nationales du Royaume-Uni. Celle-ci comprend une liste exhaustive des signatures associées aux différents formats et leurs versions.De nouveaux formats sont régulièrement ajoutés à PRONOM. Les identifications de type MIME, qui sont couramment utilisées par les navigateurs Web, les logiciels de courrier électronique et autres logiciels qui identifient les types de fichiers, peuvent utiliser des signatures, mais peuvent aussi avoir recours aux extensions. Les types MIME n’identifient pas les versions particulières des formats de fichiers, mais peuvent être utiles lorsque l’identification par la signature, plus exigeante, échoue. Les outils d’identification des formats de fichiers par la signature comprennent Siegfried (administré par Richard Lehane) et FIDO (administré par la Open Preservation Foundation).
La validation du format de fichier
Une fois le format de fichier identifié, des actions subséquentes peuvent être prises. La validation du format de fichier est un processus de vérification pour confirmer que le format de fichier répond aux spécifications qui ont été conçues pour ce format. Les formats de fichiers n’ont pas tous des spécifications publiées, mais lorsqu’il y en a, il est possible de vérifier si l’instance d’un fichier constitue une représentation juste de ce format. Dans le jargon de la préservation, deux questions se posent : le fichier est-il bien formé et est-il valide?
Un fichier bien formé implique qu’il obéit aux règles syntaxiques de son format, c’est-à-dire qu’il suit les règles de structure de base établies par les spécifications du format de fichier. Ensuite, pour qu’un fichier soit valide, il doit être bien formé et répondre aux règles sémantiques. Ces dernières sont plus exigeantes en matière de qualité minimale pour un format de fichier, par exemple un fichier de format TIFF doit contenir une quantité minimale de données d’image. Comme l’observe Owens (2018), « de nombreuses applications logicielles courantes créent des fichiers qui sont, à des degrés différents, invalides selon les spécifications[6] » [traduction] (p.120).
Dans le contexte des données de recherche, le fait de valider ou non le format dépendra du format en question et des problèmes identifiés : des spécifications ont-elles été établies pour ce format? Existe-t-il un outil qui peut vérifier le fichier par rapport à sa spécification? Plus important encore, si le fichier est invalide ou valide, mais mal formé, quelles actions doivent alors être prises? Si le fichier est entièrement corrompu ou que les problèmes identifiés ont un impact important sur son utilisabilité, il peut être souhaitable de revenir vers la personne qui l’a créé pour lui demander de corriger le problème. Dans d’autres cas, les responsables de la préservation enregistrent l’information sur la validation dans les métadonnées, mais n’agissent pas en conséquence. Wheatley (2018) a documenté une série de questions utiles qui aident à évaluer les erreurs de validation : le fichier est-il chiffré? Dépend-il de composantes externes que vous n’avez pas? Est-il très endommagé? Le fichier est-il dans le format que vous pensiez? La validation peut aider à identifier les problèmes à différents stades. Certaines de ces questions peuvent être répondues au cours de l’étape de la phase de curation lorsque la personne responsable de la curation des données vérifie activement la qualité, l’exhaustivité et la facilité d’utilisation des fichiers. Ensuite, un flux de travail de préservation pourra simplement enregistrer la validité des formats dans les métadonnées, ce qui pourra servir à une éventuelle nouvelle vérification de la validité. Les outils (en anglais uniquement) pour la validation des formats de fichier comprennent JHOVE (administré par la Open Preservation Foundation) pour une variété de formats et veraPDF pour les fichiers PDF/A.
La conversion des formats de fichiers : la normalisation et la migration
La conversion des formats de fichiers est probablement le plus actif des processus discutés dans ce chapitre. Plutôt que de recueillir des informations sur les fichiers, la conversion des fichiers en d’autres formats affecte directement le contenu des fichiers eux-mêmes. Tel que mentionné précédemment, cette action peut être effectuée avant de transférer les fichiers dans un dépôt, par exemple lorsque les chercheuses et chercheurs sont encouragés d’exporter leurs fichiers dans des formats non propriétaires particuliers ou des formats plus favorables à être préservés. Selon les résultats de l’identification des formats de fichiers, la conversion peut aussi se faire au cours du traitement des fichiers en vue de leur préservation à long terme. La conversion des formats de fichiers peut avoir un impact important sur les propriétés ou sur le contenu des informations du fichier et elle doit être entreprise en s’assurant que le fichier dans son nouveau format répondra toujours aux besoins de la Communauté d’utilisateurs cible. Il est donc important de multiplier les tests et de régulièrement valider les sorties de conversion avec une variété d’échantillons de fichiers.
La normalisation et la migration sont deux processus différents qui aboutissent au même résultat. La normalisation est le processus de conversion des fichiers vers une série de formats normalisés tels que définis par l’archive ou le dépôt au moment de la réception ou de l’ingestion. Le dépôt n’a donc qu’à prendre en charge la gestion d’un sous-ensemble de formats de fichiers pour l’avenir. Il est question de migration quand un dépôt doit convertir ses fichiers en un format secondaire, généralement à grande échelle, en réponse à un risque identifié, notamment un format qui n’est plus supporté. Pour un processus comme pour l’autre, une nouvelle copie du fichier est créée dans un format différent, qui sera aussi géré par le dépôt. La copie originale est généralement conservée pour éviter la perte accidentelle d’information survenue en cours de conversion. Par le passé, la normalisation pour la préservation était un procédé par défaut pour de nombreux dépôts. Désormais, les dépôts évaluent plus attentivement à quel moment la normalisation devrait se faire pour assurer qu’ils réduisent les impacts environnementaux et financiers liés à la création de copies trop nombreuses.
La normalisation et la migration à des fins de préservation doivent être distinctes de ces mêmes actions à des fins d’accès. La normalisation ou la migration pour favoriser l’accès est appliquée pour permettre aux Communautés d’utilisateurs cibles d’accéder aux fichiers en fonction de leurs besoins. Par exemple, un fichier TIFF important qui contient une carte géographique peut être normalisé en un fichier JPEG pour faciliter l’accès en ligne.
Les outils pour la conversion des formats de fichiers sont nombreux et varient en fonction des formats en question. Par exemple, les outils couramment utilisés pour les processus de travail automatisés comprennent ImageMagick pour les images et les FFmpeg pour les fichiers audios et vidéos.
Évaluer les actions de préservation
Au niveau du fichier et de la collection
Évaluer les résultats des actions de préservation pour des fichiers individuels ou des collections à différents niveaux d’agrégation implique d’exécuter une action – telle que l’identification ou la normalisation des formats de fichiers – et d’examiner les résultats. En règle générale, ces actions sont effectuées en tant que tests jusqu’à ce que les résultats soient considérés comme acceptables. À ce moment-là, des approches plus automatisées et flexibles prennent le relais pour créer la version finale. Pour l’identification et la validation des formats de fichiers, il faut déterminer si le résultat correspond aux attentes. Par exemple, les fichiers NVP qui sont produits par le logiciel NVivo pour l’analyse des données qualitatives ne sont pas toujours identifiables avec un outil comme Siegfried parce qu’aucune description de ce format n’existe dans PRONOM. La personne responsable de la préservation doit décider si des outils supplémentaires devraient être mis en œuvre pour identifier ce type de fichiers ou s’il vaut mieux attendre une éventuelle mise à jour de PRONOM qui permettrait de refaire le processus d’identification.
Si un fichier est mal formé, mais qu’il peut être ouvert et consulté, l’erreur signalée par l’outil ne nécessite peut-être pas un triage plus approfondi. Il est également important d’évaluer les résultats des actions de normalisation et de migration. Est-ce qu’un outil particulier de conversion produit un résultat qui répond mieux aux besoins de la Communauté d’utilisateurs cible en fonction de son contenu informatif ou de sa présentation? Sinon, des outils ou stratégies supplémentaires, tels que l’émulation, peuvent être nécessaires. Par exemple, la conversion de documents de la suite MS Office – notamment les présentations PowerPoint – en format PDF peut nécessiter l’accès aux polices originales du document à moins qu’elles aient été intégrées au fichier original. Sans accès à ces polices, la mise en page et l’aspect général de la version PDF peuvent être différents de l’original. Cet élément est-il important aux membres de la Communauté d’utilisateurs cible qui accèdent au fichier ou est-ce que le contenu informatif suffit? Ces évaluations peuvent être améliorées en ayant accès aux membres de la Communauté d’utilisateurs cible par l’intermédiaire de groupes consultatifs ou en interrogeant les membres de la communauté.
Au niveau du logiciel et du système
Sur la base des exemples mentionnés précédemment, vous comprenez comment la réflexion sur les résultats à un niveau granulaire a un impact sur les décisions prises au niveau du système. L’utilisation d’un outil pour résoudre un ensemble de problèmes risque d’affecter d’autres fichiers du dépôt. Les actions de préservation peuvent être prises sur une base individuelle, un fichier à la fois, mais il est plus courant pour les responsables de la préservation de s’appuyer sur des outils de flux de tâches qui automatisent une série d’actions à plus grande échelle. Ces responsables ont aussi une deuxième responsabilité, celle d’évaluer la fonctionnalité et l’impact des logiciels de flux de tâches, y compris s’ils peuvent effectuer les actions de préservation requise, en plus de valider les résultats.
Certains organismes peuvent se créer des scripts ou des outils internes personnalisés pour effectuer leurs actions de préservation, tandis que d’autres peuvent avoir recours à des logiciels ouverts ou commerciaux développés par des tiers. Toutefois, pour les actions de préservation individuelles, la plupart des outils de flux de tâches pour la préservation (y compris les logiciels commerciaux) utilisent plusieurs des outils libres mentionnés précédemment, notamment Siegfried et JHOVE. Archivematica est un exemple de ce type de logiciel; il s’agit d’une application libre pour le flux de tâches qui produit des données sous forme de paquets prêts pour la préservation et le stockage à long terme. Archivematica comprend des processus pour créer et valider les sommes de contrôle, pour effectuer les tâches d’identification des formats de fichiers, pour exécuter la validation et la normalisation des formats pour la préservation et l’accès ainsi que des processus pour se connecter aux systèmes de stockage, ce qui permet de déposer des fichiers dans des espaces de stockage à long terme. Il regroupe également les métadonnées de préservation en utilisant les normes METS et PREMIS XML. Lorsqu’un établissement définit ses priorités en matière de préservation et comprend bien les collections qu’il souhaite préserver, il prend des décisions plus éclairées sur les outils de préservation à mettre en place et sur la façon de les configurer. La prise de ces décisions permet de définir la stratégie et la planification de la préservation.
Au niveau de la stratégie
Des méthodes ont aussi été créées pour faire le lien entre les outils comme Archivematica et des systèmes et logiciels dédiés aux données de recherche. Par exemple, une intégration entre la plateforme logicielle Dataverse (un logiciel pour les dépôts de données de recherche) et Archivematica permet aux responsables de la préservation de sélectionner et de traiter les jeux de données de recherche indépendamment du logiciel du dépôt, ce qui signifie que le stockage et la gestion des données de recherche déposées dans une collection Dataverse peuvent se faire à l’intérieur du cadre de la stratégie de préservation plus large de leur établissement. Pour plus d’informations sur la plateforme logicielle Dataverse et sur Archivematica, consultez l’article Integrating Dataverse and Archivematica for Research Data Preservation de Meghan Goodchild et Grant Hurley.
En revanche, les hôtes des installations de Dataverse peuvent aussi offrir des fonctionnalités de préservation. Par exemple, l’application Borealis (qui est une instance de Dataverse hébergée au Canada) comprend une stratégie de préservation au niveau des bits qui implique une vérification régulière de l’intégrité et un stockage répliqué sur différents périphériques. Une autre tâche de la personne responsable de la préservation est d’évaluer quels types d’actions sont nécessaires pour l’ensemble des collections administrées par l’établissement. Par exemple, un établissement peut être à l’aise de s’appuyer sur une stratégie de préservation de base au niveau des bits pour les données qu’il administre pour une brève période ou qu’il ne considère pas comme essentielles à ses collections institutionnelles. D’autres pourraient élaborer une politique d’évaluation ou d’archivage qui précise des exigences pour les jeux de données qui seront préservés à long terme. Les deux approches peuvent aussi être utilisées conjointement pour différentes collections; une stratégie au niveau des bits pourrait suffire pour du matériel à faible risque ou à valeur limitée tandis qu’une approche plus avancée qui utilise Archivematica pourrait être nécessaire pour le matériel de plus grande valeur pour l’établissement. Les mêmes questions s’appliquent aux choix de stockage de préservation, comme discuté plus tôt dans la section sur « Les sommes de contrôle, la préservation au niveau des bits et le stockage de préservation. » À ce niveau, la planification de la préservation nécessite l’établissement de politiques, plans et autres documentations. Consultez l’ouvrage Digital Preservation Policy and Strategy : Where Do I Start? de Christine Madsen et Megan Hurst pour une bonne introduction sur le sujet.
Conclusion
Les données de recherche stockées sous forme numérique font face à une variété de menaces qui jouent sur leur accessibilité à long terme. Ces menaces peuvent inclure la détérioration des fichiers eux-mêmes ou la perte des connaissances qui sont nécessaires pour consulter ou bien comprendre les objets numériques. Heureusement, de nombreuses normes et pratiques ont été développées pour atténuer ces risques. De telles interventions peuvent être à la fois de nature technique ou sous forme de politique, mais elles nécessitent deux éléments. Le premier est une planification méticuleuse, car il est difficile, voire impossible, de reconstituer les connaissances techniques nécessaires pour bien comprendre l’objet numérique si celles-ci ont été oubliées. Le deuxième est d’avoir une bonne connaissance de la Communauté d’utilisateurs cible – le groupe pour lequel les données ont été préservées. Ce savoir permet aux responsables de la préservation d’appliquer les actions appropriées pour assurer que les données restent compréhensibles, significatives et authentiques pour les personnes auxquelles elles sont destinées.
Questions de réflexion
- Quelles sont les menaces à la pérennité des données de recherche au fil du temps? Ces menaces varient-elles selon le type de données?
- Pouvez-vous envisager un scénario où un établissement choisirait de prendre certaines actions de préservation plutôt que d’autres? Par exemple, pourquoi un établissement choisirait-il de s’engager dans la génération et la vérification de sommes de contrôle, mais ne pas procéder à la normalisation des formats de fichier?
- Prenez comme exemple un jeu de données qui vous est familier. Réfléchissez ensuite aux personnes qui pourraient vouloir accéder à ces données. Quelles questions les données peuvent-elles provoquer et pourquoi? Est-ce à propos du type de logiciel nécessaire pour ouvrir les fichiers du jeu de données ou est-ce au sujet de l’origine des données et de la façon dont elles ont été recueillies?
Prenons maintenant les mêmes personnes dix ans plus tard. Pensez-vous que les questions des membres de ce groupe seront toujours les mêmes ou leurs préoccupations auront changé? Si oui, de quelle façon?
Éléments clés à retenir
- Les menaces courantes pour les données comprennent : l’obsolescence des médias, la dégradation des médias, l’obsolescence des formats et la perte de la provenance.
- Les actions potentielles de préservation comprennent : les sommes de contrôle et la préservation au niveau des bits, l’extraction technique des métadonnées, la validation des formats de fichiers ainsi que la normalisation et la migration.
- En évaluant les actions de préservation, tenez compte (1) des risques que vous traitez et (2) du rapport coût-efficacité de l’action.
- L’efficacité des actions de préservation peut varier selon qu’elles sont appliquées aux fichiers ou collections, aux systèmes ou dépôts ou à l’échelle de l’établissement.
Lectures et ressources supplémentaires
Addis, M. (2020). Which checksum algorithm should I use? Digital Preservation Coalition. http://doi.org/10.7207/twgn20-12
Borealis. (2022). Plan de préservation. https://borealisdata.ca/planpreservation
Dorey, J., Hurley, G. et Knazook, B. (2022). Guide d’évaluation pour la préservation des données de recherche. Zenodo. https://zenodo.org/record/6283886
Goodchild, M. et Hurley, G. (2019). Integrating Dataverse and Archivematica for research data preservation. Dans M. Ras, B. Sierman et A. Puggioni (dir.), iPRES 2019: 16th international conference on digital preservation (p. 234-244). https://osf.io/wqbvy
Lavoie, B. (2014). The Open Archival Information System (OAIS) reference model: Introductory guide (2e éd.). Digital Preservation Coalition Technology Watch Report.
Madsen, C. et Hurst, M. (2019). Digital preservation policy and strategy: Where do I start? Dans J. Myntti et J. Zoom (dir.), Digital preservation in libraries: Preparing for a sustainable future (p. 37-47). ALA Editions Core, American Library Association.
Bibliographie
Bettivia, R. S. (2016). The power of imaginary users: Designated communities in the OAIS reference model. Proceedings of the Association for Information Science and Technology, 53(1), 1-9.
CCSDS. (2012). Modèle de référence pour un Système ouvert d’archivage d’information (OAIS). Pratique recommandée CCSDS 650.0-M-2 (F). https://public.ccsds.org/Pubs/650x0m2%28F%29.pdf
DANS. (2022, 20 juin). File formats. https://dans.knaw.nl/en/file-formats/
Digital Preservation Coalition. (2015). Manuel de préservation numérique (2e éd.). https://www.dpconline.org/docs/digital-preservation/handbook/translations-3/2519-handbook-2021-fr/file
Ledoux, T., de La Houssaye, J., Reecht, S., Caron, B., Phillips, M., Bailey, J., Goethals, A. et Owens, T. (2019). NDSA Levels of Preservation version 1, traduction française. HAL. https://bnf.hal.science/hal-02162334
Marks, S. (2015). Becoming a trusted digital repository. Trends in Archives Practice Module 8. Society of American Archivists.
McGovern, N. (2016). Digital preservation management model document. https://dpworkshop.org/workshops/management-tools/policy-framework/model-document
Owens, T. (2018). The theory and craft of digital preservation. Johns Hopkins.
Schaefer, S., McGovern, N., Goethals, A., Zierau, E. et Truman, G. (2018). Digital preservation storage criteria, version 3. http://osf.io/sjc6u/
Wheatley, P. (2018, 11 octobre). A valediction for validation? Digital Preservation Coalition Blog. https://www.dpconline.org/blog/a-valediction-for-validation
- "a convention that establishes the rules for how information is structured and stored in a file." ↵
- "all conversations about formats need to start from the understanding that they are conventions for how files are supposed to be structured, not essential truths." ↵
- "preservation for someone rather than preservation of something." ↵
- "there is a commonality of services, and at some point subject-specificity may dictate a need for different approaches to serve different Designated Communities." ↵
- "A digital archive may be dark, dim, or lit, but the absolute proof of preservation is in the capability to provide meaningful long-term access." ↵
- "many everyday software applications create files … that are to varying degrees invalid according to the specifications." ↵
Série d'activités gérées nécessaires pour garantir un accès continu aux objets numériques aussi longtemps que nécessaire.
Tout morceau d’information, soit unique, soit groupé, qui est stocké par un ordinateur. L'utilisation du terme numérique s'explique parce que toutes les versions des données lisibles par un ordinateur sont codées sous la forme d'une série de uns et de zéros qui sont les seules entrées que les systèmes informatiques peuvent comprendre.
Sources d'informations ou de preuves qui ont été compilées pour servir de base à la recherche.
Modèle conceptuel publié en 2002, révisé en 2012 (et traduit en 2017), le modèle du système ouvert d’archivage d’information (Open Archival Information System, OAIS) établit une série de recommandations pour un système d’information dont le but est de maintenir la capacité d’utilisation des objets numériques au fil du temps. Devenu une norme ISO (ISO 14721) en 2003.
Menace à la longévité des objets numériques basée sur la notion que le média sur lequel ils sont stockés pourrait devenir inutilisable parce que la personne qui veut les utiliser ne détient pas le matériel informatique (ou le logiciel, comme les pilotes de périphérique) nécessaire pour accéder aux données sur le média. Au moment de rédiger ce manuel, l’obsolescence des médias est généralement associée aux disquettes et à une variété de formats de cartouches de données qui, au fil du temps, ne font plus partie de l’usage courant. Les menaces d’obsolescence des médias sont traitées par le biais de méthodes qui assurent l’intégrité au niveau des bits, dont la migration régulière des objets numériques vers des supports modernes plus récents.
Menace à la longévité des objets numériques basée sur la détérioration du support sur lequel ils sont stockés. Parfois appelé « pourriture de l’octet » (bit rot). Les menaces de dégradation du média sont souvent traitées par le biais d’actions de préservation qui assurent l’intégrité des bits, y compris la vérification active des objets numériques pour y déceler des altérations/pertes, en plus de mesures qui visent à créer de multiples copies d’un objet sur différents types de médias.
Menace à la longévité des objets numériques basée sur l’incapacité de décoder la séquence de bits qui constitue l’objet numérique. Les menaces d’obsolescence des formats sont souvent traitées par le biais d’un programme d’identification et de validation des formats de fichiers et – au besoin – de la normalisation ou migration des formats obsolètes vers des formats courants.
Menace à la longévité des objets numériques basée sur l’incapacité des membres de la communauté des utilisatrices et utilisateurs à identifier des informations importantes sur l’objet numérique, notamment sa source, l’historique des modifications et ultimement, son authenticité. Les menaces à la provenance d’un objet numérique sont souvent traitées par le biais de la création et de la mise à jour des métadonnées de préservation.
Méthode normalisée qui répartit des uns et des zéros pour qu’ils puissent être utilisés pour codifier certains types particuliers d’informations.
Documentation faisant référence à la source, l’historique et la propriété d’un artéfact, que celui-ci soit analogique ou numérique.
Norme pour les métadonnées ainsi qu’un dictionnaire de données développés pour uniformiser la façon dont les systèmes de préservation enregistrent et comprennent les concepts importants liés à la préservation à long terme d’objets numériques. Les fichiers PREMIS peuvent comprendre des informations techniques (p. ex., l’information sur le format de fichier, les sommes de contrôle) ainsi que des informations sur la provenance (p. ex., les journaux des changements (changelogs), les informations sur les acquisitions).
Éléments d’information utilisés pour décrire le contenu ou le contenant d’une ressource. Elles peuvent être structurées ou non.
Entité conceptuelle introduite par la norme OAIS qui se rapporte aux personnes utilisatrices potentielles d’un objet numérique préservé dans une archive. La Communauté d’utilisateurs cible est un concept essentiel pour la planification de la préservation à long terme parce qu’il nécessite une compréhension des besoins et des capacités de la Communauté d’utilisateurs cible, permettant ainsi de faire des choix éclairés en matière, notamment, de formats de fichiers et de rétention des données.
Terme qui décrit toutes les activités que les chercheuses et chercheurs effectuent pour structurer, organiser et préserver les données de recherche avant, pendant et après le processus de recherche.
Chaînes numériques ou alphanumériques uniques de longueurs potentielles variées produites par un algorithme cryptographique tel que CRC, MD5, SHA1 et SHA256. Aussi appelée empreinte numérique, même la plus petite modification apportée au fichier entraînera une modification complète de la somme de contrôle.
Niveau de préservation qui préserve la séquence de uns et de zéros qui compose un objet numérique, mais qui ne traite pas nécessairement de la compréhension des données codées.
Lors de l'ingestion des fichiers dans un système de préservation, processus qui consiste à convertir une copie des fichiers originaux dans un format non propriétaire, largement utilisé et respectueux de la préservation. La normalisation standardise les formats des objets numériques ingérés et permet aux archives d'éviter de gérer un grand nombre de formats. Cependant, la normalisation peut également modifier la taille et les propriétés des fichiers. [traduction]. (Scholars Portal, s.d.).
Concept lié à la permanence des objets numériques. L’uniformité des objets numériques est complexe à établir; la façon dont ils sont stockés implique que les objets sont souvent copiés ou transférés et il faut s’assurer qu’ils restent identiques aux objets avant la copie ou le transfert. Dans la pratique courante, l’intégrité est intimement liée à la génération et la vérification des sommes de contrôle, ce qui peut aider à assurer qu’une série ordonnée de bits est restée inchangée.
Série de bits qui s’enchaînent de façon prévisible au début, à la fin ou aux deux extrémités d’un fichier.
Données générées par des recherches qui examinent les aspects sociaux de la condition humaine en utilisant des méthodes descriptives plutôt que des mesures.
Moyen de surmonter l'obsolescence technologique du matériel et des logiciels en développant des techniques permettant d'imiter des systèmes obsolètes sur les futures générations d'ordinateurs. (Manuel de préservation numérique, s.d.).
Lorsque du code ou un logiciel est ouvert ou en source libre, les personnes qui l’utilisent sont autorisées à inspecter, utiliser, modifier, améliorer et redistribuer le code sous-jacent. Plusieurs programmeuses et programmeurs utilisent la licence MIT lors de la publication de leur code, ce qui implique que toutes les itérations ultérieures du logiciel incluent également la licence MIT.