ISTEX

Lettre CPUinfos du 27 octobre 2011 – n°77

Le projet ISTEX : mutualiser l’accès à la connaissance

Le projet ISTEX (initiative en information scientifique et technique) est un projet thématique transversal porté, dans le cadre des investissements d’avenir, par l’Université de Lorraine, pour l’ensemble des universités.

Ce projet retenu, pour lequel 67 millions d’euros étaient sollicités, a été défendu par la CPU dès ses premiers échanges avec la commission Juppé-Rocard, s’inspirant en cela de l’expérience menée en Allemagne. L’accès à des ressources documentaires riches est en effet nécessaire à une production scientifique de rang mondial, et l’une des conditions pour attirer des équipes reconnues internationalement ; leur mutualisation relève d’une stratégie nationale et est par conséquent placée sous la responsabilité d’un groupe de pilotage national.
Ce projet de mutualisation de ressources numériques a pour ambition :

  • de donner accès à un corpus de ressources documentaires acquises dans le cadre d’un programme volontariste d’achat de licences nationales ;
  • d’agréger ces ressources au sein d’une plateforme nationale accessible à tous les établissements ;
  • de permettre la  personnalisation en fonction des thématiques de formation et de recherche de chacun : chaque Idex pourra ainsi se confectionner un portail spécifique, à partir du portail national accessible à tous ;
  • d’héberger sur le territoire des contenus scientifiques numériques dans le but d’offrir à la communauté d’enseignement supérieur et de recherche des services à forte valeur ajoutée.

La CPU a demandé aux porteurs d’Idex de manifester leur soutien au projet Istex, reconnu d’intérêt national, ce que chacun des porteurs a fait. L’accès à la plateforme du projet ne sera cependant pas limité aux établissements membres d’un projet d’Idex, mais bien possible à toutes les universités.

Le projet Istex implique, avec la CPU, Couperin, l’INIST-CNRS et l’Abes. Ces porteurs ont choisi les meilleures pratiques pour les associer en un seul projet, et ont ajouté à l’achat et au stockage des licences nationales un portail d’exploitation sophistiqué, qui constitue la vraie valeur ajoutée, et qui rend le projet très compétitif au plan international.
Istex est donc un bon exemple de la manière dont les Investissements d’Avenir ont permis à notre pays non seulement de rattraper son retard, mais aussi, par un grand pas en avant, de prendre un peu d’avance !

Easy Door

Isidore est un portail SHS du CNRS basé sur le web sémantique. L’interface destinée à la recherche d’information est structurée exactement comme un blog, donc très ergonomique et fonctionnelle ; sa prise en main est intuitive. On y trouve un nuage de tags, des facettes, des possibilités de partage avec les outils du web 2.0 (réseaux sociaux, plateformes de signets…).

Comment cet outil est-il architecturé, comment fonctionne-t-il ? La rubrique « A propos » donne les premiers éléments de réponse, mais il faut télécharger le « Guide des bonnes pratiques numériques » pour avoir des informations détaillées.

Isidore collecte, filtre, indexe des métadonnées : c’est essentiellement un agrégateur de métadonnées. Il faut préciser tout de même que certaines métadonnées ne sont pas collectées, mais simplement consultées grâce au protocole SRU/SRW proche du Z39.50, cela concerne les serveurs de données bibliographiques. Pour les autres ressources, la collecte est assurée soit par le protocole OAI/PMH (archives ouvertes par exemple), soit par le protocole Sitemap +RDFa (blogs, sites web…), soit les flux de syndication de type RSS.

Le format de données est le XML (version XML du MARC21 ou de l’UNIMARC dans le cas des serveurs bibliographiques), les schémas de données sont standards : RSS 2.0, ATOM, Dublin Core, METS et RDF. Certains référentiels CNRS ont déjà été intégrés : Pactols, termSciences, Calenda, Geonames, HAL ; de même que RAMEAU. Seul ce dernier est vraiment universel, quand aux référentiels HAL, je pense que le terme est inapproprié, c’est peut être simplement un défaut de jeunesse.

En résumé, une bien belle application qui ouvre une nouvelle voie pour ceux qui souhaitent offrir à leurs utilisateurs une interface de recherche unique dédiée.

iTunes U

Ouvert au début de l’été 2007, le portail iTunes U offre un accès gratuit à des contenus audios et videos élaborés par les universités américaines essentiellement. Malgré tout, certaines universités françaises ont commencé à investir ce média de diffusion.

  • College de France
  • HEC Paris
  • Mines Nantes
  • SUPINFO
  • Université de Strasbourg
  • Université de Nice Sophia Antipolis
  • Université Paris 1 Panthéon-Sorbonne
  • Université Paris Descartes
  • Université Pierre et Marie Curie

Quels types de contenus ? Des événements (séminaires, colloques…), des enseignements (en majorité), des informations institutionnelles.

Le plus d’iTunes U réside, à mon sens, dans le fait que ces contenus universitaires sont situés dans un ensemble iTunes bien connu pour les loisirs (musique, videos…) et très utilisé aussi bien sur les smartphones que sur les ordinateurs.

Numérisation

Le SCD de l’Université Henri Poincaré procède depuis plusieurs années à l’envoi sous forme électronique des documents produits par les étudiants (thèses, mémoires) en cas de demande de PEB. A compter de la fin 2008, une réflexion a été menée pour aboutir à un traitement systématique des thèses d’exercice et de certains mémoires sous forme électronique. L’idée était d’appliquer à ces documents, moyennant quelques ajustements, les principes qui étaient en vigueur pour les thèses de doctorat. Ce projet a abouti à la rentrée 2009 avec le dépôt sous forme numérique uniquement, de l’ensemble des thèses d’exercice, des mémoires d’orthophonie, de sages-femmes, d’audioprothésistes, et de certains mémoires d’ingénieurs et de master.

Le circuit de dépôt mis en place dans chacun des cas a répliqué celui en vigueur pour la version papier de ces documents, à savoir dans la majeure partie des cas un contact au sein de la scolarité pour la collecte des documents et la signature du contrat de diffusion et un personnel du SCD chargé du traitement des documents et des contacts avec la scolarité.
Dans le cadre de la mise en place du dépôt électronique des réunions de présentation du projet ont été organisées avec les différentes scolarité au printemps 2009. Dans certains cas la validation s’est faite en conseil d’UFR (Pharmacie), dans d’autres c’est le doyen qui a donné son aval (Odontologie).

Sur un plan pratique, nous demandons aux scolarités de nous fournir :
– un CD comprenant la thèse ou le mémoire sous forme PDF et le résumé sous fichier Word
– le contrat de diffusion signé en deux exemplaires ou un document précisant que l’étudiant refuse la diffusion (Le contrat utilisé est le même que celui en vigueur pour les thèses de doctorat)
– un formulaire simplifié de dépôt et de suivi

Le traitement des documents reçus se fait pour l’heure dans le Sudoc uniquement. Les fichiers sont quant à eux déposés sur un serveur de diffusion mis en place par le CRI. La situation changera en profondeur à compter de la rentrée de septembre 2010 prochain, date à laquelle nous allons utiliser le logiciel ORI-OAI pour le traitement et la diffusion de l’ensemble de nos thèses et mémoires numériques : thèses de doctorat, thèses d’exercices et mémoires. Cet outil permettra à la fois de donner une meilleure visibilité aux documents (indexation par les moteurs de recherche, navigation par type de ressource, par année, par discipline…) et de familiariser les collègues du SCD avec une autre sorte de logiciel que le SIGB qui n’est pas conçu et adapté pour la gestion de documents numériques.

(texte rédigé par la personne responsable du projet)

Ce projet étant finalisé pour le secteur Médecine, on perçoit dès maintenant que les difficultés se situent essentiellement dans l’obtention de l’autorisation de diffusion par l’auteur.

Exemple pour les thèses d’exercice en Médecine de la période 2000-2009 :

  • Nombre total = 1.756 thèses
  • Demandes d’autorisation sans réponse à ce jour = 46,01%
  • Auteurs introuvables = 7,52%
  • Refus de diffusion = 1,59%
  • Thèses mises en ligne = 45,05%

Hathi Trust

L’information annonçant l’ouverture de ce portail m’est parvenue par EchosDoc.

Hathi Trust regroupe des bibliothèques américaines (une quinzaine) qui participent à Google Books. Il y a près de 5 millions d’ouvrages numérisés, dont environ 15% sont tombés dans le domaine public et accessibles à tous. Effectivement une recherche avec le terme « anatomy » propose 1.005 document en « full view » sur 5.490 au total », d’où un sentiment de frustration pour les personnes n’appartenant pas à ces universités…

La visualisation des documents en « full view » est proposée en format PDF, en format texte et en format image. Le format texte est pratique pour le copier/coller , mais on observe un certain nombre de caractères parasites dans ce format.

Il y a également la possibilité de créer ses propres collections que l’on peut partager ou non avec la communauté.

L’interface de recherche est relativement classique avec 3 options : dans le catalogue, dans les documents « full view » ou dans les collections publiques. La page de résultats affiche des facettes,  j’ai remarqué qu’au niveau de chaque notice, il y avait un lien « Find in a library » qui rebondit sur Worldcat. Cela est très intéressant et pourra être utilisé lorsque nos collections signalées dans le Sudoc seront affichées dans Worldcat.

Stanza

Les commentaires de Nicomo dans le post précédent, m’ont incité à présenter une application e-reader de l’iIphone : Stanza.

Stanza est une application gratuite qui permet d’accéder à des contenus libres ou payants. L’offre est déjà conséquente, mais principalement anglo-saxonne. L’accès aux ressources est d’une simplicité enfantine, il suffit de sélectionner son fournisseur, puis le thème, la langue et enfin le titre. L’application propose alors de télécharger le titre. La navigation est hyper simple puisque le feuilletage s’effectue en touchant la partie gauche ou droite de l’écran, la partie centrale étant réservée à la mise en oeuvre de touches de contrôle permettant de mettre des repères, des notes ou de grossir le texte.

J’ai lu récemment un article expliquant qu’un établissement scolaire aux Etats Unis propose un accès à un fournisseur pour livres scolaires au travers d’une application analogue, le cartable des élèves se résume donc à un Iphone, sachant qu’ils disposent d’une bibliothèque en ligne complète (les contenus !). A méditer…

e-reader, et dans 5 ans ?

Je reste persuadé qu’il est plus pertinent pour les bibliothécaires de travailler sur l’offre de contenus que sur les lecteurs de contenu. Sachant que l’offre sera utilisée sur les tablettes/smartphones… que l’utilisateur choisira d’utiliser. On sent bien actuellement la tendance de disposer d’un outil multitâches comme le smartphone qui est à la fois téléphone, GPS, lecteur de sons, lecteurs de videos, consoles de jeux, etc…

Pour le fun, voici une partie de l’offre actuelle, qu’en restera-t-il ?

Un ebook reader solaire chez LG

Cybook Gen 3

Tablet PC Ubuntu

Iliad

Kindle

Sony PRS 500

Un e-reader flexible chez Bridgestone

enTourage eDGe

ebook reader Nook de Barnes & Noble

Alex de Spring Design

EZ Reader Pocket PRO de chez Astak

Kindle DX de chez Amazon

Papyrus chez Samsung

PocketBook 360° chez PocketBook

FLEPia chez Fujitsu

Thèses électroniques

La mise en ligne des thèses n’est pas une mince affaire, contrairement aux apparences…

Dans un premier temps, on se dit que numériser le stock de thèses ne devrait pas être trop compliqué, il suffit pour cela de disposer d’un numériseur et de personnel enthousiaste. Nous avons amélioré la situation de l’époque en ajoutant un numériseur couleur et surtout en embauchant des moniteurs-étudiants (3 en Santé, 3 en Sciences).
Ensuite, nous avons agi sur la production courante : depuis juin 2007, le dépôt électronique des thèses est obligatoire à l’UHP et le seul officiel dans le respect du titre III, art. 8 de l’arrêté du 7 août 2006. Il a néanmoins fallu agir tout au long de l’année 2007 pour obtenir ce résultat (satisfaisant).

Dans un second temps, nous nous sommes intéressés à la question des droits de diffusion (horreur !). Concernant, les documents antérieurs à juin 2007 (avant l’existence d’un contrat de diffusion), nous nous sommes attachés à contacter les auteurs concernés par courrier/email afin de leur faire signer le fameux contrat de diffusion. Puis nous avons ajouté une page d’avertissement à chaque thèse, page reprenant les textes sur le copyright et indiquant aux auteurs leur droit de retrait. Effectivement, ce droit a été demandé sur quelques thèses, soit de manière initiale, soit après diffusion pour des raisons parfois incompréhensibles ou loufoques. mais il faut être à tout moment en mesure de retirer la thèse de la plateforme de diffusion. Pour les documents courants, le contrat de diffusion est signé par les doctorants au service central des thèses, signé par le Président de l’université et archivé par le service juridique de l’université.

Le signalement des thèses électroniques est effectué dans le Sudoc comme l’ensemble des fonds documentaires. Pour les documents courants qui n’existent que sous forme électronique, pas de problème, une notice de thèse électronique suffit. Pour les documents rétrospectifs, c’est une autre paire de manches, car l’ABES demande à ce qu’il y ait une notice pour la version imprimée et une notice pour la version électronique. Recréer toutes les notices électroniques des thèses pour lesquelles nous disposons déjà de la version imprimée n’est pas de notre goût, surtout que pour un même document à choisir entre la version imprimée et la version électronique, l’utilisateur ne tergiversera pas. En conséquence, nous avons décidé de retirer le signalement de la version imprimée (le document papier est conservé comme secours) et de transformer simplement la notice de l’imprimé en notice de la version électronique. Ces notices retombent alors dans le SIGB. Sur le site web, nous avons mis en place le formulaire gracieusement fourni par Daniel Bourrion pour une recherche Sudoc. Le signalement dans HAL est lui soumis au respect du droit de retrait, ce qui n’est pas le cas actuellement… (en attente).

Pour finir, la diffusion de ce type de documents s’envisage naturellement sur une plateforme de diffusion adaptée, permettant la gestion des métadonnées, l’intégration dans l’ENT pour permettre le dépôt par le doctorant… Et là, les choses traînent en longueur depuis plusieurs années. Nous avions porté tous nos espoirs sur une entrepôt OAI de type DSpace, puis sur HAL ; ensuite on nous a proposé STAR pour alimenter l’archivage CINES, le signalement Sudoc… Puis enfin, une plateforme ORI-OAO intégrée à l’ENT alimentée par les fichiers Apogée de l’université, capable d’alimenter STAR en web services… Pour finir, les thèses sont actuellement stockées sur un « bête » serveur FTP  en attendant l’arrivée du module thèses d’ORI-OAI pour la fin de l’année (à suivre).

Accès distant aux ressources documentaires (Worldcat Link Manager 6)

Voici un point sur la solution d’accès distant en cours de déploiement pour les trois universités de Nancy (Université Henri PoincaréUniversité Nancy 2INPL). Il s’agit d’une solution commune reposant sur une installation unique d’un reverse-proxy ([[EZproxy]]).
En « entrée » l’authentification s’effectue sur les annuaires [[LDAP]] des trois établissements en utilisant [[Shibboleth]]. En sortie, le reverse-proxy effectue la redirection vers les ressources électroniques en attribuant une adresse IP différente en fonction de l’établissement d’appartenance de l’utilisateur. On utilise pour celà la possibilité offerte par ce serveur cache de sortir avec des IP différentes. Cela permet d’une part de respecter les termes des licences signées avec les éditeurs et d’autre part de continuer à avoir des statistiques éditeurs différenciées selon les établissements.

Cette solution permet de ne plus déclarer auprès des fournisseurs que la seule IP du reverse-proxy de manière à en faire un passage obligé et à obtenir ainsi des données statistiques issues des logs de connexion, à quelques exceptions près… Pour faire vivre cet outil, une personne par SCD est formée à la mise à jour des données. Nous avons pris le parti de ne déclarer dans le résolveur que les versions électroniques des revues et les version imprimées pour lesquelles nous disposons d’une version électronique.

Enfin, il reste à réaliser l’intégration de l’outil dans le site web et dans l’ENT. D’ailleurs à propos de l’ENT, le CRI de Nancy2 a développé un outil qui permet de gérer et de déclarer les nouvelles ressources : cet outil accessible par les bibliothécaires permet de générer automatiquement les URLs composées à partir du résolveur de liens (vraiment sympa !).

On va tester !

Comme la bibliothèque d’Angers s’est lancée dans le prêt de Cybook, nous avons décidé de tester le Sony Reader ebook avec 2 objectifs :

  1. Avoir une idée de ce type de produit et imaginer des modes d’utilisation (y mettre toutes les thèses…)
  2. Que les professionnels du SCD soient les mieux et les premiers informés sur ce type de produit

J’espère ne pas relancer la discussion entre Daniel B. et Bertrand C., j’annonce d’emblée souscrire aux arguments de Daniel B. !