Encodage de l’information numérique

L’encodage de textes numériques est réalisé à partir de tables développées selon les besoins de chaque pays. La table de codage la plus connue est la table ASCII qui permet d’encoder les caractères les plus courants de la langue anglaise.

UNICODE est un consortium crée pour rassembler toutes les tables de codage en une seule afin de pouvoir traiter les textes multilingues ainsi que toutes les écritures.
Le codage des caractères est réalisé sur 4 octets, ce qui a pour effet de multiplier la taille des fichiers par 4, ce qui n’est pas sans conséquences. Ainsi, UNICODE permet plusieurs encodages : UTF-8 (1 octet), UTF-16 (2 octets), UTF-32 (4 octets).
Les langages de programmation avancée actuels acceptent UNICODE, de même que les navigateurs web… Le codage des images et du son est basé sur le même principe.

Un format candidat à l’archivage devra être documenté, être utilisé sur un parc logiciel important et être soutenu par des organismes internationaux. Le format candidat à l’archivage sera apprécié sur des critères d’ouverture, de normalisation, de brevabilité, d’inclusion de métadonnées, de dépendance vis à vis d’autres formats, d’OS, de dépendance économique et matérielle.

Modèle de référence OAIS – Norme ISO 14721

Le modèle de référence OAIS est un modèle normatif aidant à comprendre la problèmatique de l’archivage des documents numériques. C’est aussi un système d’archivage ouvert qui est devenu une norme internationale ISO 14721 qui sera publiée courant 2005.

Information descriptive de la pérennisation :

  • la provenance décrit l’origine du contenu de l’information
  • le contexte décrit le rapport entre le contenu d’information et d’autres informations extérieures
  • l’identification fournit un ou plusieurs identifiants permettant de repérer le contenu de façon unique
  • l’intégrité : système protégent le contenu contre un changement non document?

Un modèle fonctionnel sera organisé autour des modules suivants :

  • Versement : préparation du contenu en vue du stockage et de la gestion des données au sein de l’archive
  • Règles de soumission : critères permettant de déterminer les types d’information souhaités et autorisés, de s’assurer que les informations sont conformes aux normes internes OAIS
  • Stockage : services relatifs au stockage, à la maintenance et à la récupération des données (gestion de la hiérarchie du stockage, surveillance et renouvellement des supports, contrôles d’erreurs, contrôles des accès…)
  • Gestion des données : gestion de l’enrichissement, de la mise à jour et de l’accès aux données descriptives et administratives pour gérer l’archive
  • Planification de la préservation : recommandations pour garantir l’accès à long terme à l’information archivée (veille technologique, planification des migrations, évaluation des risques, développement des stratégies de préservation, surveillance des producteurs et des utilisateurs)
  • Administration : gestion du fonctionnement global de l’archive (négociation des accords de soumission, gestion de la configuration matérielle et logicielle, contrôle de l’accès physique)
  • Accès : interface unique entre les utilisateurs et les fonds d’archives
  • Services de base : services du système d’exploitation, services du réseau, services de sécurité

Préservation des documents numériques

L’objectif de la préservation numérique est de maintenir la capacité :

  • d’afficher
  • d’extraire
  • d’utiliser les collections numériques sur le long terme

La pérennisation de l’information comprend :

  • la conservation physique des fichiers, des métadonnées associées, des scripts, des programmes
  • l’assurance d’une utilisation continue de la collection
  • le maintien de la sécurité de la collection

L’objet numérique est un objet d’information avec un contenu intellectuel. Au niveau le plus bas, il est représenté par une suite de bits, il se présente sous une forme codée et structurée, il est consultable par le biais de plates-formes logicielles et matérielles. A consulter :
Préservation des documents numériques
Unicode et ISO 10646
Le document numérique : notions fondamentales
Archivage pérenne des documents numériques

Le format de métadonnées METS

METS est un format de métadonnées (schéma XML) de gestion d’objets numériques complexes (un ou plusieurs fichiers numériques, un ou plusieurs formats de fichier, structure interne et externe de l’objet).

METS regroupe les métadonnées selon des fonctions bien précises :

  • Métadonnées descriptives : appréhender le contenu, identifier, échanger
  • Métadonnées administratives :
    • métadonnées techniques : conservation, restitution
    • métadonnées de gestion des droits : contrôle de l’accès, de l’usage
    • métadonnées de source et de provenance : lien avec document source, conservation de l’historique des modifications
  • Métadonnées de structure : connaître les fichiers composant le document, connaître la relation physique et logique entre ces fichiers

Concrétement, METS permet de conserver, de donner accès, d’échanger.

Structure d’un document METS :

  • entête contenant des informations sur le document METS
  • métadonnées descriptives
  • métadonnées administratives
  • section fichiers : liste des fichiers composant l’objet
  • carte de structure
  • liens de structure
  • comportement

A consulter :

Métadonnées de préservation

Les métadonnées de préservation permettent de constituer une base de données d’informations stockées avec l’archive afin de gérer :

  • les cycles de vie du document (cas des documents administratifs)
  • les versions et les éditions
  • les droits de propriété intellectuelle et/ou industrielle
  • les droits des utilisateurs
  • la vérification et la validation des formats

Fils RSS : applications en bibliothèque

L’objectif est d’évaluer les possibilités d’application des flux RSS dans le monde des bibliothèques. Il s’agit dans un premier temps de recenser les applications actuelles directement transposables.

Weblogs professionnels : outils de diffusion en temps réel des informations collectées par les professionnels

Informations concentrées dans une page web (aggrégation) : mise en place de pages d’informations thèmatiques ou de produits type « dossiers documentaires »

Informations produites dans un weblog : valorisation d’un fonds documentaire, fédération d’un ensemble d’utilisateurs, informations générales

Informations produites à partir d’une recherche : système analogue à la notion de profil documentaire (diffusion sélective de l’information)

Informations extraites d’un site web

Informations extraites d’un catalogue de bibliothèque

  • opac2rss.pl
    : outil permettant de se connecter au SIGB Horizon et d’en extraire les informations de prêts en cours, on peut imaginer d’une part l’extraction d’autres types de données telles que les nouveautés (déjà réalisé)… et d’autre part envisager l’application de cette technologie à d’autres SIGB. (exemple pour un SIGB
    )

Informations extraites d’une revue

Informations extraites d’une aggrégation de signets

Informations extraites d’un compte email

Informations accessibles sur un mobile

ARCHIMEDE

La Bibliothèque de l’Université Laval vient tout juste de lancer la troisième composante de son système de dépôt institutionnel qui se nomme ARCHIMEDE (archimede.bibl.ulaval.ca
). Ce module comporte les pré-publications, les post-publications et autres publications de recherche provenant des facultés et groupes de recherche.

Se basant sur une analyse exhaustive des solutions logicielles disponibles, incluant E-prints et D-Space, la bibliothèque a opté pour le développement de sa propre solution personnalisée. Inspiré du modèle D-space, ARCHIMEDE est orienté vers les communautés de recherche et est entièrement développé en « open source ». Le système est conforme à OAI (Open Archive Initiative), utilisant des métadonnées basées sur le Dublin Core. Une distribution « open source » de ARCHIMEDE est maintenant disponible.

Fils RSS : état de l’art

Le format RSS (« Rich Site Summary » ou « Real Simple Syndication » selon les sources) est un moyen simple pour extraire automatiquement de l’information d’un contenu régulièrement mis à jour.

Le format RSS
Le format RSS a peu évolué depuis sa création en 1999. La moitié des sites utilisent encore la version initiale 0.91. Une version plus complexe 1.0 a été un échec. Le mieux est d’utiliser directement le RSS 2.0, compatible avec la version 0.91 et dont la plupart des nouvelles options sont facultatives (spécifications officielles du RSS 2.0, traduction française). Si vous créez des fichiers RSS, il existe un validateur en ligne http://feedvalidator.org.

Les utilisations actuelles du RSS
Avec un fil RSS, on peut extraire de l’information de diverses sources : site web, weblog, messagerie, revue électronique, catalogue… L’extraction peut concerner tout ou partie de la source.

L’exploitation et la lecture des informations extraites par fil RSS peut s’effectuer selon divers processus :

  • Lecteur dédié de fil RSS
    L’information provenant d’un ou plusieurs fil RSS peut être lue, fédérée, syndiquée dans un lecteur installé comme logiciel client, ou rendue disponible sur un site web spécifique appelé agrégateur de fils RSS.
  • Navigateur web
    Les principaux navigateurs web du moment autorisent désormais la gestion des fils RSS au même titre que les signets ou favoris.
  • Lecteur de courriel
    Certains lecteurs de courriel permettent de collecter des informations provenant de fils RSS et de les gérer comme des messages électroniques.
  • Page web
    Un manière élégante de collecter l’information provenant de sources RSS est de l’organiser dans une page web

On voit clairement se dessiner un nombre important d’applications potentielles touchant aux domaines de l’information et de la documentation.

Les aspects techniques
Les formats RSS les plus répandus aujourd’hui sont :

  • RSS 0.91 / RSS 0.92 / RSS 2.0

    Le « fichier RSS » est souvent de type « rss.xml ».
    Il doit être conforme aux spécifications XML.
    Le fichier contient un élément (indiquant la version utilisée), comprenant lui-même un seul élement . Ce « channel » (canal, ou flux) comporte le contenu et les meta-données le d?crivant (balises), tout étant décrit dans plusieurs champs . Un « item » est en général une actualité.
    La version 2.0 est bien sûr la plus complète (par exemple, en version 0.91, on ne gère pas de date de publication et d’auteur par actualité, mais globalement pour tout le flux).
  • RSS 1.0
    Le « fichier RSS » est souvent de type « rss.rdf ».
    Il commence par l’élément principal , puis par un élément , et enfin par une liste d’éléments qui sont traités séparément (contrairement à RSS 0.91, qui englobe tous les items dans un « channel »).Ces deux types de formats sont donc différents, tant dans leurs syntaxes que dans les normes sur lesquelles ils s’appuient.
  • exemple de fichier RSS

Fils RSS et navigateurs Web

Certains navigateurs Web permettent d?sormais de lire des fils RSS et de les « bookmarker » comme de simples favoris.
Je retiens 2 navigateurs avec des fonctionnalit?s diff?rentes.
le fil RSS est ajout? comme un favori, le fait de pointer dessus ouvre une fen?tre listant les titres des posts du fil concern?. Comme pour les favoris des regroupements peuvent ?tre effectu?s par dossier.
les fils RSS b?n?ficient d’outils pour ajouter ou organiser. Ils apparaissent dans un onglet sp?cifique et/ou dans une barre de navigation. A mon sens, c’est ce qui se fait de mieux pour le moment.