La gestion des utilisateurs et auteurs dans Okina

Billet un peu technique à destination des bibliothécaires et administrateurs d’archives ouvertes.

Voici, rapidement, la manière dont les auteurs sont gérés dans Okina. Comme expliqué précédemment, nous utilisons Drupal et le module Biblio, augmenté par nos soins.

Les “users” Drupal

Le CMS Drupal comprend une table “users”, référençant l’ensemble des personnes qui accèdent à la plateforme en mode authentifié.

Connexion/authentification

Connexion CAS classique (module Drupal prêt à l’emploi) avec les identifiants habituels.

Création du compte user

  • Pour les utilisateurs lambda de la plateforme (étudiants de l’UA, par exemple, et toute personne qui n’est pas amenée à déposer dans Okina, seulement à consulter), un paramètre du module CAS permet la génération automatique du compte à la première connexion.
  • Pour les chercheurs et ITRF/Biatoss des laboratoires, nous avons choisi de procéder autrement : import via csv des informations des comptes (dont le laboratoire d’appartenance) et attribution automatique du rôle permettant d’accéder aux dépôt et services. Ainsi les chercheurs n’ont plus qu’à se connecter et peuvent directement utiliser l’application.

Enrichissement du profil user

Les chercheurs peuvent charger leur photo, modifier l’url permettant d’accéder à leur profil, indiquer les adresses de leurs profils sur les réseaux sociaux, leurs sites personnels, leur numéro ORCID, leur biographie, CV, etc. Nous ajouterons probablement un champ ID HAL, lorsque HAL v3 sera en production.

Bien sûr la génération de la liste des publications est automatique. Basé sur ces publications, nous proposons un encart présentant les mots-clés les plus utilisés par le chercheurs. Nous pourrions proposer bien d’autres informations, à l’échelon du chercheur ou de celui du laboratoire : revues ou éditeurs les plus “utilisés” par les chercheurs pour publier, par exemple. Nous le ferons sans doute un jour, si cela intéresse nos chercheurs.

Les auteurs Biblio

Le module Biblio génère une table des autorités auteurs présents dans les publications. Cette table est liée à celle des users comme suit.

Lien entre les tables

On peut indiquer dans la fiche auteur le user correspondant, ou inversement. Le module biblio permet d’ouvrir ce paramétrage aux users eux-mêmes, nous avons choisi de nous en occuper directement. De plus nous avons automatisé la création de l’autorité auteur liée à l’import des comptes users, lorsque celle-ci n’existe pas encore.

Gestion des doublons auteurs

Il va falloir suivre l’évolution de la table auteur de près, pour éviter qu’elle “dégénère”. En natif, un repérage des doublons potentiels est disponible (surlignage dans l’interface de gestion ; repérage basé sur l’homophonie + suggestions de noms aux sonorités/lettres proches). Le module Biblio permet de fusionner des auteurs, en gardant ou non les formes rejetées (pour qu’elles ne soient pas recréées à chaque fois dans la table auteur). Il permet également de simples liens entre autorités. Nous avons remarqué des petits dysfonctionnements du module Biblio “natif”, corrigés par nos soins (ces corrections intègreront le module communautaire et sont bien entendu dès à présent disponibles pour qui en aurait besoin).

Auteurs orphelins

Le module Biblio met automatiquement de côté les auteurs ne figurant plus dans aucune référence bibliographique, et permet de les supprimer à l’unité ou en lot, ou bien entendu de les conserver.

Faire-part

vertPoint d’étape de printemps, il est temps d’annoncer l’heureux événement : Okina, l’archive ouverte angevine, est ouverte en v.1 depuis 2 mois maintenant. Pour le moment, l’accès est réservé à la communauté angevine, et nous espérons une inauguration officielle au dernier trimestre 2014.

En attendant, le travail se poursuit. La peinture est encore fraîche, nous apportons des retouches ici ou là…

Développements

Côté technique, l’essentiel y est, et même un peu plus : création de notice ou import automatisé, diffusion des fichiers entièrement paramétrable, édition de listes (plusieurs modèles, plusieurs styles bibliographiques, plusieurs formats d’affichage et d’export), moteur de recherche “facetté”, profils chercheurs, etc.
Nous commençons les développements et paramétrages pour permettre la gestion des tirés à part sur les documents en accès restreint. Restera bien entendu le connecteur HAL, et nous attendons impatiemment le passage en production de HAL v.3 pour nous lancer dans ce développement.

Accompagnement

Huit laboratoires ont été intégrés : SOPAM, SONAS, MOLTECH, LARIS, GRANEM, CERHIO, 3L.AM, LAREMA. Cela signifie que leurs notices bibliographiques ont été reprises par un membre de l’équipe AO (Emmanuel Lemoine ; l’équipe compte deux autres personnes, Baptiste Judic, développeur, et moi-même) pour la période 2008-2012, et que nous formons les chercheurs au dépôt pour qu’ils soient autonomes pour la suite. Aujourd’hui 2 juin, une soixantaine de chercheurs ont bénéficié d’une formation pratique (en plus des présentations générales), Okina compte 2807 références bibliographiques, dont 193 avec texte intégral. Les retours sont positifs, la simplicité d’utilisation saluée (c’était un objectif important).
Nous poursuivons le travail de promotion et de formation auprès des chercheurs “1ère vague” ; parallèlement, l’intégration de nouveaux laboratoires est en cours.

[Crédit photo : Sans titre, Sabrina Jelken – CC BY-NC-SA]

Combien ça coûte ?

Pour répondre à une sollicitation concernant le coût de notre projet, voici un bref inventaire des moyens mobilisés.

Équipements

Lors d’un premier chiffrage estimatif, réalisé avec la direction du pilotage de l’Université, les frais techniques (mise en place d’une machine virtuelle, son administration, sa maintenance, ses sauvegardes, l’ajout d’espace disque) ont été estimés par la direction du numérique à un peu moins de 12000€ HT sur 5 ans.

Archivage

Si l’archivage pérenne est assuré par le CINES, l’abonnement au service coûte environ 5000€ HT par To et par an.

Ressources humaines année 2013-2014

La lettre de mission, datée de mai 2013 et signée du Président, mentionne les RH dévolues au projet de 2013 à août 2014. En théorie sont mobilisés un bibliothécaire chef de projet (temps plein), un bibliothécaire contractuel (temps plein), un développeur (temps plein), un ASI recherche à mi-temps, + une assistance à la maîtrise d’ouvrage, assurée par un ingénieur de recherche de la direction du numérique, pour notamment faciliter le travail inter directions.

Dans les faits, l’équipe est constituée d’un développeur à temps plein, mis à disposition par la DDN et remplacé localement par un contractuel (= 1 recrutement), d’un pseudo-bibliothécaire à temps plein (qui n’a de bibliothécaire que le rattachement ; il a travaillé dans un laboratoire sur la gestion des références bibliographiques et la production de rapport AERES, et est chargé de la reprise du rétrospectif des laboratoires pilotes puis de la formation des chercheurs au dépôt ; = 1 recrutement contractuel), et d’une bibliothécaire chef de projet. Nous travaillons ponctuellement avec les autres services (direction de la recherche, service communication, direction du numérique, service bibliothèque numérique, …), sur des points précis (AMO, référentiel des laboratoires, extractions Apogée/Harpège, communication, etc).

Soit, en résumé, mobilisation d’une bibliothécaire “existante” + 2 recrutements contractuels.

[Edit : pas de coût de logiciel puisque nous utilisons un logiciel libre, Drupal, sans recours à un prestataire extérieur.]

Quelles licences de diffusion pour une archive ouverte institutionnelle ?

Ce billet est un compte-rendu de l’entretien téléphonique qu’a bien voulu m’accorder ce jour Lionel Maurel. Je publie ces notes, certaine que ces précisions seront utiles à d’autres promoteurs d’archives institutionnelles…

Une licence pour les métadonnées ?

L’archive institutionnelle est une base de données, son producteur dispose de droits spécifiques et peut apposer une licence. Par ailleurs la base de données appartenant à une institution publique, les données contenues sont de fait des données publiques. Dans notre cas plusieurs licences sont envisageables :

  • Licence ouverte Etalab, créée spécifiquement pour la diffusion des données publiques. Elle équivaut à une licence Creative Commons CC BY. C’est la licence utilisée pour IDref par exemple.
  • ODBL : Open Database License, licence spécifique aux bases de données, équivalent d’une CC BY-SA. Cette licence libre est utilisée par le projet OpenStreetMap. À noter : la réutilisation des données via un moteur de recherche par exemple ne déclenche pas le “share alike”. Celui-ci n’entre en jeu qu’à partir du moment où les données sont modifiées.
  • CC0 : cette licence Creative Commons permet de renoncer à tout droit et de verser l’objet au domaine public par anticipation.

Peut-on utiliser les licences CC pour les articles (ou autres documents sous contrat) ?

Si l’auteur souhaite pouvoir diffuser son travail sous licence CC, le plus simple est de faire apparaître ce point dans le contrat signé avec l’éditeur. Néanmoins, lorsque le contrat signé est une cession de droit non exclusive, alors l’auteur peut librement diffuser son travail, y compris sous CC s’il le souhaite. En revanche lorsque la cession de droit est totale, l’auteur n’a pas cette liberté.
La licence de diffusion devrait donc être mentionnée explicitement dans une clause additionnelle précisant que l’auteur a le droit de déposer et diffuser son travail dans son archive institutionnelle (au moins). L’éditeur pourrait sans doute accepter une licence CC BY-NC, peut-être préférer CC BY-NC-ND.
Dans l’addendum SPARC, le choix d’une licence CC n’est pas évoqué, mais la phrase suivante offre à l’auteur la possibilité d’autoriser un usage non commercial de son travail, droit qui peut donc ensuite être exercé avec une licence CC : “the right to authorize others to make any non-commercial use of the Article so long as Author receives credit as author and the journal in which the Article has been published is cited as the source of first publication of the Article”.

Et les données de la recherche ?

Jusque très récemment, les Creative Commons ne pouvaient pas être appliquées aux données. La version 4.0 modifie cela, et désormais on peut choisir d’attribuer une licence pour l’article et les sets de données liés, ou une licence pour l’article, une autre pour les données, à la guise de l’auteur.

Une institution publique est-elle libre de disposer des productions de ses chercheurs, au moins en intranet ?

Le code de la propriété intellectuelle prévoit que tout travail produit par un agent public dans l’exercice de ses fonctions appartient de fait à son institution, qui peut en user à sa guise. Sauf que le CPI comprend une clause d’exception pour les chercheurs, qui restent propriétaires de tous leurs droits sur leur production, même s’ils sont financés par l’État.

Angers à Strasbourg

Sur invitation de Paul-Antoine Hervieux, vice-président de l’Unistra, en charge du numérique et des partenariats avec les EPST et les collectivités, une délégation angevine est allée à Strasbourg le 21 octobre dernier. Nathalie Clot (directrice BU), Stéphane Amiard (VP numérique UA) et moi-même (chef de projet archive ouverte) avons présenté sous toutes les coutures le projet d’archive institutionnelle, à un public large et averti : environ 25 personnes, dont Alain Beretz, président de l’Unistra, Jean-Luc Bischoff, vice-président recherche de l’Université de Haute Alsace, plusieurs autres VP des deux universités, ainsi que les directeurs de services recherche, documentation, informatique, plusieurs chercheurs et des représentants de la Bibliothèque Nationale Universitaire.

Voici le support de cette présentation. Il se divise en trois parties :

  • une introduction sur la valorisation du capital immatériel, par Stéphane Amiard, diapos 1 à 4
  • une présentation de la stratégie angevine, par Nathalie Clot, diapos 5 à 18
  • une présentation axée gestion de projet, par Stéphanie Bouvier, diapos 19 à 27.

Point d’étape de rentrée

La nouvelle année universitaire démarre, l’occasion de faire le point sur les avancées des derniers mois.
Go board

Lettre de cadrage et gestion de projet

D’abord, suite aux différents votes en CS et CA, l’archive recherche est désormais un projet universitaire officiellement mandaté par Jean-Paul Saint-André, président de l’UA. Je suis chargée de ce projet, que cadre une lettre de mission stipulant les objectifs, les échéances, les moyens affectés, ainsi que les autorités de référence (à savoir : comité de direction de l’Université pour le suivi global, Florence Even, directrice générale adjointe chargée des fonctions support et recherche, et Stéphane Amiard, vice-président délégué au numérique).

Moyens humains

L’équipe s’est récemment étoffée :

  • Anne-Laure David, DDN, accompagne le volet technique du projet et assure l’assistance à maîtrise d’ouvrage
  • Baptiste Judic, développeur, DDN, travaille depuis juin 2013 sur la future archive
  • Emmanuel Lemoine, contractuel BU depuis le 1er septembre, a entamé la reprise des publications 2008-2012 des laboratoires pilotes.

Coopération avec les laboratoires

Tous les laboratoires ont été contactés pour une présentation. Les laboratoires rencontrés au 31 août 2013 sont les suivants :

  • Santé : GEIHP, GEROM, LNBT, CRT, BNMI, SOPAM
  • Végétal : BIAF, IRHS, SONAS
  • Matériaux : LPHIA, MOLTECH
  • MATH-STIC : LASQUO, LAREMA
  • LLSHS : CERIEC, Centre Jean Bodin, CERHIO, CRILA, 3L.AM, GRANEM

Parmi ces laboratoires, huit ont accepté d’être pilotes : MOLTECH, GRANEM, 3L.AM, LAREMA, SOPAM, SONAS, CERHIO, CRILA. Le travail est en cours avec eux.

Calendrier

L’objectif est d’ouvrir une version bêta de l’archive au plus tard en mars 2014 (conformément à la lettre de cadrage), et d’y proposer les publications des laboratoires pilotes, dont les chercheurs devront avoir été formés au dépôt d’ici là (pour le courant à partir de 2013).
Tous les laboratoires seront ensuite intégrés, par vagues successives, jusqu’en mars 2015.

[Crédit photo : Go board, hatdow, CC BY-NC-SA]

À propos du mandat UA

Les conseils scientifique et d’administration d’avril dernier ont été l’occasion pour Jean-Paul Saint-André de présenter et proposer au vote le contenu du mandat de notre future archive ouverte.

L’ensemble de la production scientifique des chercheurs devra être référencée depuis 2008, et le texte intégral des articles systématiquement joint depuis 2012.

Cette saisie du rétrospectif ne pèsera pas sur les chercheurs, puisque le gros de ce travail sera effectué par un bibliothécaire. Il restera aux chercheurs à vérifier que toute leur production est bien signalée, puis à ajouter les pdf. À chacun ensuite de signaler au fur et à mesure ses publications, pour le courant.

A voté ! Pour une archive ouverte institutionnelle à l’UA

D’abord le CS lundi 11 mars, puis le CA hier, jeudi 28 mars 2013, ont voté

  • la création d’une archive ouverte institutionnelle, pour diffuser et valoriser la recherche de l’Université d’Angers,
  • l’adoption d’un mandat de dépôt : les chercheurs seront appelés à signaler l’ensemble de leurs publications et à en déposer le texte intégral. Celui-ci sera diffusé en libre accès chaque fois que possible, ou si nécessaire en intranet.

Après dix mois de rencontres, réunions, échanges en tout genre, le travail peut désormais commencer, sur le plan technique et avec les laboratoires. Parmi ces derniers, des pilotes inaugureront le signalement de leurs publications dans l’AO locale, avant intégration progressive de l’ensemble des laboratoires UA.

L’Université d’Angers est l’un des premiers établissements d’enseignement supérieurs français à adopter un mandat de dépôt, peut-être la première parmi les universités. L’initiative est déjà saluée par certains, merci à eux.

Jean-Christophe Peyssard, Cléo, OpenEdition

Rémi Mathis, président de Wikimedia France

Olivier Ertzscheid, enseignant-chercheur, Université de Nantes

Bernard Rentier, Recteur de l’Université de Liège

Paul Thirion, directeur des bibliothèques de l’ULg

Visite des laboratoires : un premier bilan sur l’utilisation de HAL

Pour terminer 2012, voici un rapide bilan des visites de laboratoires effectuées depuis la rentrée 2012. Nous avons pu présenter le projet à environ un tiers des laboratoires de l’UA (SONAS, BNMI, MOLTECH, LAREMA, CERHIO, LASQUO, CRILA, 3L.AM). D’autres rencontres sont déjà programmées pour début 2013 (MINT, GEIHP). Par ailleurs, dans le cadre de l’enquête sur les usages du numérique diligentée par Stéphane Amiard, un certain nombre de laboratoires ont déjà été approchés aux mois de mai-juin 2012, et ces rencontres ont été l’occasion d’aborder les grandes lignes du projet d’archive ouverte, entre autres questions.

Les présentations ont été faites par Daniel Bourrion et moi-même, et nous remercions les directeurs pour l’accueil reçu. D’un laboratoire à l’autre, l’audience varie, tant en nombre (de 4 à 40 personnes environ) qu’en statut (chercheurs, mais aussi doctorants, parfois IATOSS). Notre objectif est de présenter le projet, bien sûr, mais surtout de discuter avec les chercheurs, pour comprendre leurs pratiques actuelles et leurs besoins.

D’après les échanges que nous avons eus jusqu’ici, il s’avère que l’archive ouverte HAL, mise à disposition par le CNRS, n’est pas encore utilisée, ni même connue, par l’ensemble des chercheurs.

Usages actuels

Certains chercheurs sont habitués à déposer le texte intégral de leurs articles en archive ouverte. Cet usage relève plus d’une initiative personnelle que d’une consigne du laboratoire ou des tutelles. Le LAREMA fait un peu figure d’exception, avec une pratique déjà courante de l’auto-archivage dans HAL et/ou arXiv.

Il arrive que des articles soient déposés via un sous-portail HAL (par exemple HAL-INSERM ou HAL-INRIA) parce que le chercheur a l’habitude d’utiliser ce sous-portail ; ce peut être problématique, lorsque le déposant n’a aucun lien avec l’institution dont relève le sous-portail (dans les exemples cités, l’INSERM ou l’INRIA), puisque sa notice sera de fait associée à cette institution.

Certains utilisent HAL à des fins de référencement (notices bibliographiques), mais sans déposer le texte intégral des articles signalés.

Certains chercheurs enfin ne déposent pas eux-mêmes dans HAL ; les chercheurs du CERHIO (laboratoire dépendant de quatre universités) sont ainsi invités à signaler leurs publications à un personnel rennais qui se charge d’alimenter la collection du laboratoire dans HAL SHS.

Ce qu’on observe sur HAL

Représentation de l’Université d’Angers

D’abord, l’Université d’Angers ne dispose pas d’une collection ou d’un sous-portail ; en revanche, la consultation des publications qui lui sont associées est possible grâce à une extraction automatique.

La première page de cette extraction indique que 949 documents sont référencés et les liste. Mais ne figurent ici que les notices auxquelles est joint un fichier (conformément à la politique de HAL, qui favorise logiquement, en tant qu’archive ouverte, le libre accès au texte intégral). Pour connaître les références bibliographiques sans fichier, il faut passer par la recherche et penser à cocher la petite case, “voir également les notices bibliographiques”.

Dans les 949 articles proposant du texte intégral, sont comprises les 294 thèses de doctorat déposées par la bibliothèque universitaire.
Dans l’extraction figure également des documents qui n’ont pas été écrits par des chercheurs angevins. En effet, comme l’ensemble des tutelles d’un laboratoire sont indiquées dans la signature, toute publication d’un laboratoire relevant de plusieurs universités sera rattachée à chacun de ces établissements.

Représentation des laboratoires

Certains laboratoires disposent d’une collection spécifique, qui leur donne plus de liberté en terme de charte graphique et leur permet le cas échéant d’inclure les notices sans texte intégral dans la liste des documents proposée par défaut. Les collections, disponibles via le menu “Consultation > par collection”, ne sont pas proposées sur chaque sous-portail de HAL ; par exemple, la collection du CERHIO est disponible dans la liste des collections sur HAL SHS, mais pas sur HAL “tout court”.

D’autres laboratoires ne disposent pas de collection mais sont intégrés dans le référentiel laboratoires de HAL ; pour ces derniers, il faut passer par le menu “Services > Consulter les laboratoires connus de HAL” pour consulter la fiche du laboratoire, mais pas les publications associées. Des doublons sont constatés sur certains laboratoires.

Dernier cas de figures, certains laboratoires, pourtant référencés dans HAL, sont introuvables via “Services > Consulter les laboratoires connus de HAL”. On peut citer l’exemple du LASQUO : une trentaine de documents comportent la signature du LAboratoire en Sûreté de fonctionnement, QUalité et Organisation (LASQUO), pourtant le laboratoire ne figure pas dans la liste des “laboratoires connus de HAL”.

Les articles non publiés ont-ils leur place dans une archive ouverte ?

La question fait débat. Dans HAL, il est possible de déposer un preprint non soumis (voire refusé) ; la pratique est même courante dans certaines disciplines où la publication est rare. Si l’on comprend le désir du chercheur de valoriser son travail, le fait que l’article, disponible en libre accès, n’ait fait l’objet d’aucune validation scientifique, pose problème. Bien sûr, le manuel de HAL stipule que tout document déposé “doit décrire un travail de recherche solide, conforme aux règles en usage dans la discipline, comparable aux manuscrits que les chercheurs soumettent pour publication aux comités de lecture de revues scientifiques, d’actes de colloque, etc” (cf. p.11), et l’on ne doute pas du sérieux de la grande majorité des déposants.

Cela étant, rien n’empêche une validation a posteriori d’un texte diffusé dans une archive ouverte. Dans la prochaine version de HAL, en ligne au printemps 2013, il sera ainsi possible de créer des épirevues : des chercheurs pourront se constituer en comité de lecture, sélectionner des textes diffusés sur HAL, et proposer aux auteurs de les publier.

Côté ORBi, archive de l’Université de Liège, seuls les documents acceptés peuvent être déposés : “[l]a référence devra être introduite dans ORBi dès acceptation de publication par l’éditeur ou dès que le document pourra être considéré comme abouti, dans le cas de communications orales par exemple. Les documents en cours de soumission à l’éditeur, mais pas encore acceptés, ne devront pas être introduits.”

Au cours de la présentation du projet faite au SONAS mercredi, Pascal Richomme évoquait la possibilité de charger dans l’archive de l’UA un document non encore publié, mais d’ores et déjà accepté par un éditeur, tel quel ou sous réserve de corrections mineures. Compte tenu du fait que les délais entre la soumission et la publication peuvent atteindre six mois, cette option a l’avantage de permettre une diffusion très rapide de l’article. Bien entendu, cela impliquerait pour le chercheur de modifier son dépôt une fois le papier publié.

Cette option pourra être discutée lors du prochain comité de pilotage, mardi 18 décembre, et proposée aux directeurs de laboratoire pour avis.