Préservation des documents numériques

L’objectif de la préservation numérique est de maintenir la capacité :

  • d’afficher
  • d’extraire
  • d’utiliser les collections numériques sur le long terme

La pérennisation de l’information comprend :

  • la conservation physique des fichiers, des métadonnées associées, des scripts, des programmes
  • l’assurance d’une utilisation continue de la collection
  • le maintien de la sécurité de la collection

L’objet numérique est un objet d’information avec un contenu intellectuel. Au niveau le plus bas, il est représenté par une suite de bits, il se présente sous une forme codée et structurée, il est consultable par le biais de plates-formes logicielles et matérielles. A consulter :
Préservation des documents numériques
Unicode et ISO 10646
Le document numérique : notions fondamentales
Archivage pérenne des documents numériques

Le format de métadonnées METS

METS est un format de métadonnées (schéma XML) de gestion d’objets numériques complexes (un ou plusieurs fichiers numériques, un ou plusieurs formats de fichier, structure interne et externe de l’objet).

METS regroupe les métadonnées selon des fonctions bien précises :

  • Métadonnées descriptives : appréhender le contenu, identifier, échanger
  • Métadonnées administratives :
    • métadonnées techniques : conservation, restitution
    • métadonnées de gestion des droits : contrôle de l’accès, de l’usage
    • métadonnées de source et de provenance : lien avec document source, conservation de l’historique des modifications
  • Métadonnées de structure : connaître les fichiers composant le document, connaître la relation physique et logique entre ces fichiers

Concrétement, METS permet de conserver, de donner accès, d’échanger.

Structure d’un document METS :

  • entête contenant des informations sur le document METS
  • métadonnées descriptives
  • métadonnées administratives
  • section fichiers : liste des fichiers composant l’objet
  • carte de structure
  • liens de structure
  • comportement

A consulter :

Métadonnées de préservation

Les métadonnées de préservation permettent de constituer une base de données d’informations stockées avec l’archive afin de gérer :

  • les cycles de vie du document (cas des documents administratifs)
  • les versions et les éditions
  • les droits de propriété intellectuelle et/ou industrielle
  • les droits des utilisateurs
  • la vérification et la validation des formats

Journée OAI 15 octobre 2004 Zurich

Définitions : L’Open Access est l’archivage électronique en accès libre des articles acceptés et publiés dans les revues scientifiques. Les documents signalés dans une archive institutionnelle répondant aux principes de l’Open Archive Initiative (http://www.soros.org/openaccess/
) et de la déclaration de Berlin (http://www.zim.mpg.de/openaccess-berlin/berlindeclaration.html
) ont été pour la plupart évalués par les pairs car – publiés dans des revues – présentés à des congrès ou séminaires – soumis à des comités de lecture

L’objectif de l’OA est de maximiser l’accès ? la recherche scientifique publiée ainsi que l’impact des publication et de leurs auteurs, grâce à l’archivage institutionnel des publications.

Quel avantage de mettre en ligne ses publications en open access ?
Il existe une corrélation directe entre le taux de citation d’un article dans la littérature et le nombre de téléchargements lorsqu’il est mis en ligne en open access. La courbe des téléchargements est identique à celle des citations, mais celles-ci se produisent plus tard. Le nombre de téléchargements permet d’anticiper le taux de citation à venir. ceci est très pratique pour évaluer un jeune chercheur qui aurait publié récemment et mis ses publications en open access.

Où nous mêne l’open access ? Est-ce que ses principes ne vont pas détruire le système de communication scientifique actuel ? Comment sera faite l’évaluation des chercheurs ? Le débat sur ces questions oppose les tenants du système de publication par le biais des revues commerciales vendues sur abonnement et les tenants de nouveaux modèles économiques qui proposent que les revues se financent par le biais de paiement lors de la soumission d’articles. Tous sont néanmoins d’accord que les éditeurs scientifiques (publishers) apportent un savoir faire et une valeur ajoutée au processus de publication, et que le système de contrôle par les pairs de la qualité des publications scientifiques (peer-review) doit être conservé. Stevan Harnad, le théoricien de l’OA, explique tout dans sa « Self-Archiving FAQ » http://www.eprints.org/self-faq/

L’open access a déjà commencé à transformer le processus de publication et de diffusion de la connaissance scientifique. Plus de 90% (en nombre) des éditeurs scientifiques acceptent que les chercheurs auto-archivent leurs articles après publication, dans un délai de temps variable selon les domaines. Par ailleurs plusieurs pays et institutions de recherche ont d’ores et déjà accepté et mis en oeuvre le principe de l’open access et incitent leurs chercheurs à publier dans les revues de ce type.

Que dit le droit ? Un chercheur ou son institution peuvent-il mettre en ligne ses propres publications ?

Si, lors de la publication dans une revue ou lors d’une conférence, un chercheur a signé un contrat d’édition qui ne lui fait pas perdre ce droit, lui-même ou son institution peuvent autoarchiver la publication sous forme électronique et la rendre librement accessible sur leur propre serveur. Comme signalé ci-dessus, en octobre 2004, plus de 90% des ?diteurs scientifiques avaient déjà accepté ce type d’archivage. Pour être sûr de son droit à autoarchiver, il est préférable que le chercheur vérifie auprès de son éditeur ce qu’il en est, au moment où il soumet un nouvel article pour publication, ou avant mise en ligne pour d’anciens articles. Son institution peut le faire pour lui ou l’aider dans cette tâche.

texte de David Aymonin

OpenURL et CrossRef

DOI (Digital Object Identifier) : identifiant unique d’une publication

OpenURL : méchanisme pour transporter les métadonnées et les identifiants d’une publication

Résolveur de lien : outil permettant de mettre en place des liens rebonds pour une publication

CrossRef : système mettant en place des liens entre les informations contenues dans les publications et les publications

La recherche documentaire dans un système d’information s’effectue de la façon suivante : Une requête http est lancée sur un serveur DOI, cette information est alors liée aux métadonnées et aux droits associés grâce à l’OpenURL, ces informations peuvent alors être utilisées par un résolveur de liens pour mettre en place les rebonds vers d’autres sources. Les liens éventuels entre les contenus et les publications sont établis à partir des métadonnées et du DOI par CrossRef.

http -> DOI -> OpenURL -> SFX

Recherche fédérée

Objectif
Intégration de sources et de services d’information hétérogènes au sein d’une application afin de procéder en une seule recherche sur une seule interface à l’interrogation de ressources internes et externes soit sur les références, soit sur le texte intégral.

Principe
Les systèmes proposés sont basés sur 2 types de solutions :

  • base XML de métadonnées sur laquelle on exécute les manipulations (moissonnage OAI)
  • connecteur documentaire avec la source

Connecteur documentaire
Système permettant un mapping champ à champ de la source afin de permettre une interrogation à travers une interface unifiée. La qualité du connecteur est fonction du protocole d’interconnexion :

  • Z39.50
    standard de fait, complexe ? mettre en oeuvre, imposant des trous de sécurité sur les systèmes informatiques des établissements (ouverture de ports)La norme ZING (Z39.50 International Next Generation) SRW (Search/Retrieve Web Service) est une norme basée sur les services Web visant à remplacer le protocole Z39.50.
  • SRU/SRW
    protocole plus abouti que Z39.50 mais basé sur le même principe, les requêtes sont formalisées en XML
  • AskOnce
    protocole propriétaire développé par Xerox

Commentaires
La recherche fédérée est une recherche multisources basée sur divers protocoles : Z39.50, SQL, HTTP… De manière simpliste, on pourrait en déduire qu’un outil de recherche intégrée va présenter les mêmes inconvénients que les metamoteurs : une même requête pour toutes les sources sans respecter les spécificités d’interrogation de chaque source ; il n’en est rien. Chaque source est interrogée de manière spécifique grâce aux connecteurs documentaires, ensuite les résultats sont traités pour une exploitation optimale. L’interrogation est au niveau de la référence bibliographique et/ou du texte intégral.

La mise en place d’un outil d’accès intégré présente des avantages multiples :

  • une interface unique pour interroger de multiples sources, on évite ainsi les diverses interfaces propres à chaque fournisseur
  • possibilité de guider les utilisateurs vers des ressources alternatives
  • amélioration de la lisibilité
  • valorisation des achats ou acquisitions
  • intégration de l’Opac local ou des Opacs locaux
  • possibilités de personnalisation de l’interface au niveau de l’utilisateur
  • intégration des contrôles d’accès aux ressources (annuaire LDAP)

DTD et schémas

DTD

  • Docbook DTD
    est une [[DTD]] pour les ouvrages et articles du domaine de l’informatique
  • EAD DTD
    (Encoded Archival Description) est une DTD pour les documents d’archives
  • TEI DTD
    (Text Encoding Initiative) est une DTD pour les ouvrages littéraires
  • RDF
  • BiblioML DTD
    est une DTD pour les notices catalographiques au format UNIMARC
  • AuthoritiesML DTD
    est une DTD pour les notices d’autorités au format UNIMARC
  • MARC XML
    est une DTD pour les notices catalographiques au format MARC 21
  • JAIDTD
    (Journal Archiving and Interchange) est une DTD de la NLM pour les revues électroniques
  • NDLTD
    (Networked Digital Library of Theses and Dissertations) est une DTD pour les thèses électroniques US
  • répertoire des schémas XML de l’administration

Schéma ou modèle
Un schéma décrit la terminologie (les noms des balises) et les contraintes d’utilisation (structure, type de contenu).

Le format XML

XML est un format qui structure le contenu intellectuel de l’information dans un plan de description ( DTD ou schéma XML) et autorise une description de contenu dans une zone de métadonnées; la mise en forme du document est définie par une feuille de style rédigée en XSL (Extensible Style Language), langage de présentation associé à XML.

[[XML]] est un format de document primaire et non pas de référence de document.

Pour signaler un document XML, il suffit de le rendre accessible du réseau

SGBD XML : stockage de documents
Bases XML natives : stockage de gros volumes de fichiers XML, accès rapide, administration simple, structure arborescente, pas de fonctions relationnelles. Il n’est pas nécessaire de déstructurer le document comme lorsque l’on associe le format SGML à un SGBD.
Les fichiers XML peuvent être structurés selon une [[DTD]], mais ce n’est pas obligatoire. La base XML est l’outil idéal pour agréger de l’information provenant de plusieurs sources. Attention, il y a nécessité d’associer les fichiers XML à des bases de données relationnelles pour exploiter leurs informations (statistiques, calculs). Enfin, l’association DTD-XML tend lentement à évoluer vers l’association Schéma XML-XML, le schéma XML permettant d’imposer des contrôles sur les données saisies. Mais XML ne permet pas de savoir pourquoi telle balise a été utilisée. Par contre, le sens des balises peut être exprimé en [[RDF]] (Resource Description Framework), ce métalangage permet d’exprimer que des ressources ont des propriétés qui portent certaines valeurs.

Le format UNIMARC

Le premier objectif d’UNIMARC(MAchine Readable Cataloging) est de faciliter l’échange international de données bibliographiques. UNIMARC peut également être utilisé comme modèle pour le développement de nouveaux formats bibliographiques.
UNIMARC spécifie les codes définissant les données, c’est-à -dire les codes de zones, de sous-zones et les indicateurs attribués à un enregistrement bibliographique.
UNIMARC traite des monographies, des périodiques, des documents cartographiques, musicaux, des enregistrements sonores, des représentations graphiques, des diapositives, films et documents vidéos, et prévoit des zones pour la description des ressources électroniques.

Le format UNIMARC permet de retrouver des références de documents primaires, il s’agit d’un document secondaire qui regroupe des informations sur les documents primaires ; avec l’arrivée du numérique, on parlera alors de métadonnées.

Le format UNIMARC est appelé à évoluer vers les [[FRBR]] (Functional Requirements for Bibliographic Records) qui sont une norme [[IFLA]] permettant de localiser le support voulu par l’usager ou d’avoir connaissance du type de support pour un exemplaire affiché à partir du [[catalogue]].

Archives ouvertes

Groupe de travail Archives Ouvertes (Couperin)

OAI (Open Archives Initiative)
Open Archives Forum

Logiciels d’archives ouvertes
i-Tor / CDSware / DSpace / EPrints / Greenstone / MyCore

Les archives ouvertes dans la communication scientifique / G. Chartron (2003)
Le protocole OAI et ses usages en bibliothèque
La communication scientifique revue et corrigée par Internet
Introduction au concept d’archive ouverte / MF Fily (30 juin 2005)
Position of CNRS (France) on Open Access
Archives ouvertes – Vers une obligation de dépôt ?

Dans le contexte du mouvement OAI (Open Archive Initiative), le terme « Open » concerne l’architecture technique de ces archives et n’est pas synonyme de gratuité d’accès. Il s’agit de définir des protocoles communs pour permettre une facilité d’utilisation du contenu par un ensemble de services extérieurs. Convergence forte avec le mouvement « Open source » de l’informatique libre. Un logiciel libre, contrairement à une idée commune répandue, ne signifie pas que ce logiciel soit gratuit. Un logiciel est qualifié de « libre » dans la mesure où l’accès à son code-source est libre, ce qui donc n’a rien à voir avec son prix. Chacun peut utiliser, copier, distribuer et modifier librement un logiciel libre. Par ailleurs, les sociétés commerciales peuvent éventuellement en tirer profit en le distribuant. Le logiciel libre s’oppose à la notion de logiciel propriétaire dont l’utilisation, la redistribution et toute modification sont interdites ou exigent une autorisation spécifique. Il faut donc conclure sur une certaine ambiguïté du terme « Archive ouverte », il n’a pas la même signification selon son contexte d’utilisation. Dans les discours dominants, il est plutôt assimilé à des réservoirs d’articles en accès libre, sans barrière économique et juridique, intégrant ou non des protocoles d’interopérabilité.