Archive ouverte institutionnelle

Actuellement de nombreuses universités s’embarquent dans un projet d’archive ouverte institutionnelle.

Quels choix ?

Le choix de l’outil est finalement secondaire. Ce qui va faire la décision, c’est la politique qui va être appliquée en accompagnement du dépôt.

Si on dispose d’un mandat qui impose le dépôt (cf Orbi ou Orbi.Lu), le réservoir institutionnel a un sens et va fonctionner.

Si on ne dispose pas d’un mandat « fort », il est inutile de se bercer d’illusions. Les dépôts se feront en faible partie dans l’archive, mais aussi dans des réservoirs nationaux, internationaux, universitaires, commerciaux… Dans ce cas, il est préférable de songer à mettre en place un outil capable de moissonner et/ou d’intégrer les métadonnées provenant de divers réservoirs.

Je développerai ces éléments ultérieurement 🙂

PETALE : les thèses et mémoires des universités de Lorraine en ligne

Communiqué de presse

Le 8 février 2011, le PRES de l’Université de Lorraine a lancé sa plateforme de diffusion des thèses et mémoires numériques, PETALE (Publications et travaux académiques de Lorraine).

Si les thèses étaient déjà disponibles sur des outils en ligne propres à chaque université, le besoin se faisait ressentir d’une plateforme unique. La solution : PETALE, une plateforme de diffusion des thèses et mémoires numérique commune aux quatre universités de Lorraine.

Une visibilité de la production scientifique lorraine accrue
Par la visibilité accrue donnée aux documents (indexation par les moteurs de recherche en particulier), cette initiative permet une forte valorisation de la production scientifique des établissements universitaires lorrains.
A ce jour, ce sont plus de 1500 thèses de doctorat et environ 200 thèses d’exercice librement accessibles en texte intégral. Ces chiffres vont croître rapidement puisque ce sont plus de 1 000 documents qui viendront alimenter PÉTALE chaque année (thèses de doctorat, HDR, thèses d’exercice et mémoires), auxquels s’ajouteront plusieurs centaines d’anciennes thèses qui font l’objet de programmes de numérisation. Cette diffusion sur Internet se fait dans le respect du droit d’auteur des doctorants et des étudiants qui sont amenés à signer un contrat spécifique lors du dépôt de leur travail.

Un projet connecté à son époque
Par ailleurs, l’importance accordée à un accès libre et sans barrière technique ou financière au texte intégral des thèses et mémoires permet à PETALE de participer à sa mesure au mouvement international de l’Open Access.
Il s’inscrit également dans un contexte national en forte évolution sur ce sujet et aura vocation à s’insérer dans le futur portail des thèses françaises, projet porté par l’ABES (Agence bibliographique de l’enseignement supérieur).

La plateforme PETALE est une réalisation des quatre services communs de la documentation des universités de Lorraine, en collaboration étroite avec les services informatiques, en particulier la DSI de l’Université Nancy 2. Le logiciel utilisé est ORI-OAI, logiciel libre développé par un consortium d’établissements universitaires français.

Easy Door

Isidore est un portail SHS du CNRS basé sur le web sémantique. L’interface destinée à la recherche d’information est structurée exactement comme un blog, donc très ergonomique et fonctionnelle ; sa prise en main est intuitive. On y trouve un nuage de tags, des facettes, des possibilités de partage avec les outils du web 2.0 (réseaux sociaux, plateformes de signets…).

Comment cet outil est-il architecturé, comment fonctionne-t-il ? La rubrique « A propos » donne les premiers éléments de réponse, mais il faut télécharger le « Guide des bonnes pratiques numériques » pour avoir des informations détaillées.

Isidore collecte, filtre, indexe des métadonnées : c’est essentiellement un agrégateur de métadonnées. Il faut préciser tout de même que certaines métadonnées ne sont pas collectées, mais simplement consultées grâce au protocole SRU/SRW proche du Z39.50, cela concerne les serveurs de données bibliographiques. Pour les autres ressources, la collecte est assurée soit par le protocole OAI/PMH (archives ouvertes par exemple), soit par le protocole Sitemap +RDFa (blogs, sites web…), soit les flux de syndication de type RSS.

Le format de données est le XML (version XML du MARC21 ou de l’UNIMARC dans le cas des serveurs bibliographiques), les schémas de données sont standards : RSS 2.0, ATOM, Dublin Core, METS et RDF. Certains référentiels CNRS ont déjà été intégrés : Pactols, termSciences, Calenda, Geonames, HAL ; de même que RAMEAU. Seul ce dernier est vraiment universel, quand aux référentiels HAL, je pense que le terme est inapproprié, c’est peut être simplement un défaut de jeunesse.

En résumé, une bien belle application qui ouvre une nouvelle voie pour ceux qui souhaitent offrir à leurs utilisateurs une interface de recherche unique dédiée.

Numérisation

Le SCD de l’Université Henri Poincaré procède depuis plusieurs années à l’envoi sous forme électronique des documents produits par les étudiants (thèses, mémoires) en cas de demande de PEB. A compter de la fin 2008, une réflexion a été menée pour aboutir à un traitement systématique des thèses d’exercice et de certains mémoires sous forme électronique. L’idée était d’appliquer à ces documents, moyennant quelques ajustements, les principes qui étaient en vigueur pour les thèses de doctorat. Ce projet a abouti à la rentrée 2009 avec le dépôt sous forme numérique uniquement, de l’ensemble des thèses d’exercice, des mémoires d’orthophonie, de sages-femmes, d’audioprothésistes, et de certains mémoires d’ingénieurs et de master.

Le circuit de dépôt mis en place dans chacun des cas a répliqué celui en vigueur pour la version papier de ces documents, à savoir dans la majeure partie des cas un contact au sein de la scolarité pour la collecte des documents et la signature du contrat de diffusion et un personnel du SCD chargé du traitement des documents et des contacts avec la scolarité.
Dans le cadre de la mise en place du dépôt électronique des réunions de présentation du projet ont été organisées avec les différentes scolarité au printemps 2009. Dans certains cas la validation s’est faite en conseil d’UFR (Pharmacie), dans d’autres c’est le doyen qui a donné son aval (Odontologie).

Sur un plan pratique, nous demandons aux scolarités de nous fournir :
– un CD comprenant la thèse ou le mémoire sous forme PDF et le résumé sous fichier Word
– le contrat de diffusion signé en deux exemplaires ou un document précisant que l’étudiant refuse la diffusion (Le contrat utilisé est le même que celui en vigueur pour les thèses de doctorat)
– un formulaire simplifié de dépôt et de suivi

Le traitement des documents reçus se fait pour l’heure dans le Sudoc uniquement. Les fichiers sont quant à eux déposés sur un serveur de diffusion mis en place par le CRI. La situation changera en profondeur à compter de la rentrée de septembre 2010 prochain, date à laquelle nous allons utiliser le logiciel ORI-OAI pour le traitement et la diffusion de l’ensemble de nos thèses et mémoires numériques : thèses de doctorat, thèses d’exercices et mémoires. Cet outil permettra à la fois de donner une meilleure visibilité aux documents (indexation par les moteurs de recherche, navigation par type de ressource, par année, par discipline…) et de familiariser les collègues du SCD avec une autre sorte de logiciel que le SIGB qui n’est pas conçu et adapté pour la gestion de documents numériques.

(texte rédigé par la personne responsable du projet)

Ce projet étant finalisé pour le secteur Médecine, on perçoit dès maintenant que les difficultés se situent essentiellement dans l’obtention de l’autorisation de diffusion par l’auteur.

Exemple pour les thèses d’exercice en Médecine de la période 2000-2009 :

  • Nombre total = 1.756 thèses
  • Demandes d’autorisation sans réponse à ce jour = 46,01%
  • Auteurs introuvables = 7,52%
  • Refus de diffusion = 1,59%
  • Thèses mises en ligne = 45,05%

Hathi Trust

L’information annonçant l’ouverture de ce portail m’est parvenue par EchosDoc.

Hathi Trust regroupe des bibliothèques américaines (une quinzaine) qui participent à Google Books. Il y a près de 5 millions d’ouvrages numérisés, dont environ 15% sont tombés dans le domaine public et accessibles à tous. Effectivement une recherche avec le terme « anatomy » propose 1.005 document en « full view » sur 5.490 au total », d’où un sentiment de frustration pour les personnes n’appartenant pas à ces universités…

La visualisation des documents en « full view » est proposée en format PDF, en format texte et en format image. Le format texte est pratique pour le copier/coller , mais on observe un certain nombre de caractères parasites dans ce format.

Il y a également la possibilité de créer ses propres collections que l’on peut partager ou non avec la communauté.

L’interface de recherche est relativement classique avec 3 options : dans le catalogue, dans les documents « full view » ou dans les collections publiques. La page de résultats affiche des facettes,  j’ai remarqué qu’au niveau de chaque notice, il y avait un lien « Find in a library » qui rebondit sur Worldcat. Cela est très intéressant et pourra être utilisé lorsque nos collections signalées dans le Sudoc seront affichées dans Worldcat.

Berlin7, c’est maintenant !

Du 2 au 4 décembre, la conférence de Berlin7 se tient à la Sorbonne à Paris, ce sera l’occasion pour les universités françaises de démontrer leur volonté de s’engager dans cette voie. La présence de Lionel Collet de la CPU à la cérémonie d’ouverture nous laisse espérer une signature symbolique de la CPU et celle de Jean-François Lutz (Couperin/UHP), dans le comité d’organisation, confirme la signature de l’UHP !

Dernière minute !!

* la signature de la Déclaration de Berlin par 9 universités représentées par Lionel Collet, président de la CPU :
– Université Henri Poincaré
– Université de Limoges
– Université du Mans
– Université de Nantes
– Université de Nice
– Université Paris Descartes
– Université de Poitiers
– Université de Provence
– Université de Rennes 2

* la signature de la Déclaration de Berlin par la Conférence des Grandes Ecoles représentée par Alain Storck

Scitopics

Elsevier vient de sortir un nouvel outil gratuit en direction des chercheurs : Scitopics. Une telle information me questionne toujours, car on n’a pas vraiment l’habitude d’accéder à des outils gratuitement avec cette société…

Scitopics est en fait un portail regroupant : un wiki, un moteur de recherche (Scirus), un outil de réseau social, une plateforme collaborative d’échanges. Le tout est présenté comme un nouveau type d’accès à l’IST. Les outils ne sont pas vraiment nouveaux, c’est le fait de les proposer dans un même package et gratuitement qui est nouveau. Les « topics », les thèmes donc, sont choisis et rédigés par des experts (Miami ?). Le système insiste sur la notion de validation de l’information, tiens, tiens. En subliminal, on veut nous dire que dans les archives ouvertes, les contenus ne sont pas vraiment validés ? En fait, Elsevier veut proposer une alternative à Google Scholar. Mais ce système gratuit renvoit vers les articles payants, et de préférence ceux de SciencDirect, je suppose ? La question qui me taraude est la suivante : il s’agit quand même d’un formidable outil  d’analyse sur les comportements des chercheurs, leurs échanges, leurs sujets de recherche de prédilection…non ?

Une vraie décision

Comme d’autres, je suis avec grand intérêt  le cheminement du processus engagé par le recteur de l’Université de Liège, Bernard Rentier, sur le problème de l’Open Access.

Il a abordé avec une grande objectivité la situation actuelle de la publication scientifique pour en décrire avec précision les difficultés et les incohérences. Il a décrit pas à pas les mécanismes mis en place par les « éditeurs-requins » pour contrer ce mouvement. Il a développé tous les arguments conduisant à rendre inéluctable la décision qui vient d’être prise à l’ULG de rendre obligatoire le dépôt institutionnel.

Cette obligation repose sur 4 principes :

1. Toute publication devra être déposée.
2. L’accès au dépôt institutionnel sera, par défaut, fermé, sauf si l’ouverture est autorisée. En cas de doute, l’accès restera fermé afin de ne pas créer de provocation vis-à-vis des éditeurs. Aucune querelle n’aura donc lieu.
3. Sur le serveur de la Digithèque ULg, un bouton “DEMANDE DE TIRE-A-PART PAR COURRIEL”/”REQUEST E-PRINT” sera installé et permettra l’envoi individuel, toujours libre de droits, lui.
4. Dès que les conditions seront remplies, l’auteur demandera la mise en OA.

J’attends  avec impatience de connaitre le premier président d’université française qui saura conduire son université sur ces mêmes chemins…

« Présentation de l’archive ouverte HAL » par Daniel CHARNAY, directeur du CCSD

Contact :
hal@ccsd.cnrs.fr

Depuis 5 ans, le CNRS a mis en œuvre une plateforme de dépôt d’archives ouvertes, HAL pour Hyper Articles en Ligne. HAL s’adresse à la communauté scientifique entière, et ne se limite pas aux chercheurs du CNRS.

HAL est un logiciel développé sur des technologies libres Linux, Apache, PHP, MySQL, alimenté par des chercheurs pour des chercheurs. Serveur hébergé par le centre de calcul de l’IN2P3 (environnement sécurisé).

HAL est multidisciplinaire.

L’objectif de HAL est de mettre à disposition des chercheurs leurs résultats et publications (preprints, postprints, congrès, séminiaires, brevets, ouvrages ou chapitres d’ouvrages…) de manière libre et accessible sur le web, de manière datée. C’est de la communication scientifique directe (CSD). HAL est donc un circuit court entre chercheurs. HAL compte d’ailleurs de nombreuses pages « chercheur » propres aux auteurs.

HAL contient aussi des notices bibliographiques. Or, si celles-ci sont utiles pour la bibliométrie, elles ne proposent pas de texte intégral (ce qui intéresse les chercheurs).

Les thèses ne sont pas concernées : le CCSD consacre la plateforme TEL (http://tel.ccsd.cnrs.fr/) à leur dépôt.

Les enjeux de l’autoarchivage sur HAL sont :

le libre-accès à la connaissance, en texte intégral

l’appropriation des moyens de diffusion de la production scientifique par les chercheurs

l’accessibilité, la gratuité, l’universalité et l’interopérabilité

la visibilité internationale

la mémoire scientifique et la pérennité de l’archivage (HAL donne des URI pérennes)

la possibilité de faire de la bibliométrie grâce aux métadonnées minimales (nom de l’auteur, nom du labo, type de doc, nom de l’université/institution…) entrées lors de chaque dépôt. On peut ainsi savoir combien de textes ont été déposés par telle université sur un thème donné pendant l’année 2005, par exemple.

Pour développer l’autoarchivage, il faut convaincre les chercheurs de déposer eux-mêmes le texte intégral de leurs publications sur des bases ouvertes, interopérables entre elles.

Disciplines : HAL est multidisciplinaire, mais est interconnecté avec ArXiv (http://www.arxiv.org/) depuis l’origine. Il contient donc essentiellement des articles de sciences dures : physique (33%), mathématiques (12%), informatique (12%). Il y a peu de dépôts en chimie et en biologie car de

façon générale ces disciplines, proches des secrets industriels aux enjeux financiers importants, n’ont pas une pratique de dépôt développée. HAL compte cependant 24% d’articles de SHS.

NB : Les disciplines des sciences de la vie sur HAL seront interconnectées avec PubMedCentral.

L’interrogation de HAL renvoie l’ensemble des documents trouvés, quel que soir le portail par lequel ils ont été soumis.

Comment déposer ?

Tout le monde peut déposer, après inscription libre.

Un document peut être déposé sous tout format, HAL les met ensuite sous PDF et les rend accessibles sous 24H environ. Les fichiers source sont disponibles en plus du PDF.

Les dépôts ne sont soumis qu’à un contrôle scientifique sommaire et à une vérification technique (intégralité du document, lisibilité, etc.), du moment qu’il présente un niveau scientifique comparable aux publications de revues scientifiques ou d’ouvrages académiques. Ce manque de peer-review a été critiqué mais HAL reste sur sa position de liberté de dépôt.

Important : comme sur ArXiv, aucun dépôt ne peut ensuite être retiré, mais il peut être complété par une nouvelle version. Toutes les versions déposées sont consultables, ce qui assure une transparence scientifique.

Une fois le document déposé, HAL se charge d’exporter automatiquement les données du déposant et de son dépôt vers les référentiels administratifs des chercheurs.

Question des droits d’auteur

Les auteurs doivent s’assurer avec les éditeurs de revue qui les publient qu’ils ont la possibilité de mettre en ligne sur archive ouverte leurs preprints, postprints, etc. Un outil pratique est la liste Sherpa/Romeo (http://www.sherpa.ac.uk/romeo.php), mais parfois une vérification directe auprès de l’éditeur est importante pour contractualiser la possibilité et les conditions de dépôt. C’est au chercheur de vérifier auprès de ses éditeurs ce qu’il peut faire, notamment en cas de dépôt rétrospectif. (Rappel : HAL se charge d’exporter automatiquement les données du déposant et de son dépôt vers les référentiels administratifs des chercheurs).

Il peut être intéressant pour les chercheurs d’envisager la solution Creative Commons / Science Commons (http://fr.creativecommons.org/, http://sciencecommons.org/) mais attention, ces solutions nouvelles ne cadrent pas encore exactement avec le droit français.

Institutions : les chiffres des universités sont entrés en chiffres romains : la conséquence est que les résultats de dépôts sur HAL ne sont pas pris en compte pour le classement de Shanghai.

Chaque institution dispose d’une page sur HAL, qu’elle peut personnaliser (texte, graphisme, webdesign) : pour Pierre et Marie Curie – Paris 6, qui compte 5698 documents et notices, mais n’a pas choisi de personnaliser sa page : http://hal.ccsd.cnrs.fr/UNIV-PARIS6/fr/ et pour Nice Sophia-Antipolis, qui compte 628 documents et notices et n’a pas non plus personnalisé sa page : http://hal.ccsd.cnrs.fr/UNIV-NICE/fr/

HAL

Le 6 septembre 2005, le CNRS, l’Inserm, l’Inria, l’Inra et la Conférence des présidents d’université se sont entendus pour démarrer une phase préparatoire à un portail commun de publications scientifiques basé sur la plate-forme HAL et développé par le CCSD.

L’URFIST de LYON a mis en ligne une présentation de HAL, serveur d’archives scientifiques à l’adresse suivante :

On y trouve en particulier les thèses en texte intégral déposées par leur auteur.