Bonjour,
Eprints
Nous sommes heureux de vous annoncer l’arrivée d’un nouveau middleware. Le middleware eprints s’inscrit dans le cadre de la mesure des usages de deux plateformes d’archives ouvertes OATAO et Agritop. Ils utilisent tous deux un logiciel commun qui est eprints. Ce logiciel est utilisé pour créer des sites d’archives. ezPAARSE peut désormais enrichir les logs venant de ce logiciel.
Sacha
En 2020, l’équipe ezTEAM a accueilli un stagiaire pendant huit semaines. Sacha Cuenot avait pour mission de développer le middleware eprints. Sa grande motivation a permis d’intégrer ce nouveau programme dans ezPAARSE, malgré le contexte sanitaire inédit. En effet, Sacha a réalisé une partie de son stage en télétravail et la dernière partie en présentiel avec l’équipe. Un grand merci à lui pour ce travail de qualité.
Le middleware
Lors du traitement des logs dans ezPAARSE, les ECs (événements de consultations) produits sont enrichis à l’aide de l’identifiant d’un article via OAI-PMH, un protocole compatible avec eprints permettant le moissonnage de données.
https://oatao.univ-toulouse.fr/26483/
Pour exemple, l’identifiant 26483 présent dans l’URL correspond à l’article ci-dessus sur la plateforme OATAO.
Avant de pouvoir enrichir les logs, il faut récupérer cet identifiant. C’est pourquoi, il faut développer un parseur qui analyse la sémantique des URLs dans les logs.
Ce parseur contient des expressions régulières permettant de reconnaître la structure des URLs dans ezPAARSE.
Ensuite, le middleware (logiciel annexe qui interroge eprints) va récupérer les métadonnées (publication_title, publication_date, …) de l’article consulté pour enrichir les champs en sortie d’ezPAARSE.
Comment ça marche ?
Voici une petite vidéo du traitement des logs OATAO dans ezPAARSE depuis l’interface.
Les paramètres supplémentaires
Lors d’un traitement, dans Headers (avancé) :
En plus des paramètres ezPAARSE-Middlewares et eprints-domain-name qu’il faut remplir obligatoirement pour que le middleware fonctionne, il y d’autres options intéressantes.
- eprints-cache : activer/désactiver le cache
- eprints-ttl : durée des documents dans le cache
- eprints-throttle : temps d’attente entre chaque requète
- eprints-packet-size : maximum de documents dans une requète
- eprints-buffer-size : minimum d’Ecs à garder avant résolution
- eprints-domain-name : nom de domaine de la plateforme
Pour ajouter ces paramètres supplémentaires, il suffit de cliquer sur « + AJOUTER »
Dans l’exemple, vous pouvez ajouter le middleware Crossref pour récupérer les métadonnées (print ISSN, online ISSN) grâce à l’identifiant DOI obtenu au préalable par le middleware eprints.
Après le traitement, dans le fichier résultat :
Voici un exemple de résultat obtenu lors d’un traitement avec ezPAARSE.
Dans les Ecs, nous obtenons de nouveaux champs :
provenant du parseur
- RTYPE (type de consultation comme ARTICLE, ABS)
- MIME (format comme HTML, PDF)
- title_id (identifiant interne de la revue consultée)
- unit_id (identifiant de l’article consulté)
provenant de l’enrichissement du middleware eprints
- DOI (digital object identifier)
- publication_title
- publication_date
- publisher_name
- language
Si vous souhaitez tester ce nouveau middleware, suivez pas à pas la procédure décrite dans cet article.
N’hésitez pas à contacter l’équipe ezTEAM si vous souhaitez un support technique.
Bonne journée.
Sacha Cuenot pour ezTEAM.