Bonjour,
Chaque mois, Yannick Schurter, Steven Wilmouth et moi-même, nous nous réunissons pendant une journée pour faire le point des plateformes dans le Trello « Suivi des plateformes ».
l’objectif de ces sessions est de recenser les dernières analyses réalisées par les contributeurs (plateformes en statut 3 dans le trello) et de faire la mise à jour des parseurs dans ezPAARSE.
Voici le bilan de cette dernière session :
Les petites corrections
https://iopscience.iop.org:443/article/10.1143/JJAP.16.2165/pdf
Le parseur de la plateforme IOP Science a été modifié car ce type de DOI n’était pas reconnu dans l’expression régulière. En effet, il contient des caractères spéciaux.
Même constat pour Wiley, on peut remarquer le manque d’homogénité dans les suffixes de DOI. Il a fallu modifier l’expression régulière (regex) pour que les caratères spéciaux contenus dans l’identifiant soient pris
compte dans ezPAARSE.
Cette plateforme possède un parseur et une liste de titre de publications au format Kbart (PKB) qui permet d’enrichir les évènements de consultations lors d’un traitement dans ezPAARSE.
Les URLs contiennent un identifiant « title_id » composé d’une abréviation du titre de la revue suivi d’un numéro (en caractère gras dans l’exemple) :
http://heinonline.org/HOL/Print?collection=journals&handle=hein.journals/antil77&id=53
Cette consultation correspond à un ARTICLE au format PDF
L’information contenue dans la PKB est la suivante
Antitrust Law Journal 0003-6056 1967 32 2012 78 http://heinonline.org/HOL/Index?index=journals/antil antil P2Y fulltext
On peut remarquer que l’information « title_id » dans la PKB ne contient pas le chiffre 77 comme dans l’URL. C’est pourquoi il est impossible de récolter l’information du titre de la revue Antitrust Law Journal.
Nous avons modifié le parseur pour qu’il ne garde que l’abréviation du titre de revue et rejette le chiffre afin de permettre l’enrichissement grâce à la PKB disponible.
Le test avec ezLOGGER permet de vérifier en détail que les métadonnées sont ajoutées à la consultation lors de l’interrogation à ezPAARSE.
Poursuivons dans la partie « enrichissement » des événements de consultations (Ecs) avec une modification du Scrapeur de la plateforme OpenEdition.
Pour rappel, un scrapeur est un petit programme qui interroge une API pour récupérer une liste de revues au format Kbart (PKB).
Nous interrogeons l’API Bacon (Abes) pour cet éditeur. Suite à un problème de reformatage des listes Kbart, OpenEdition nous a proposé de connecter le scrapeur directement à leur API afin de récupérer les titres de revues dans le bon format.
Voila le code du programme qui interroge la liste des journaux de l’éditeur avec la modification de l’URL de la requête.
Nous avons pu testé en traitant des logs du portail CNRS dans ezPAARSE. L’enrichissement avec la PKB téléchargées directement sur l’API de OpenEdition est au bon format et fonctionne parfaitement.
Une grande correction
Yannick Schurter, notre développeur, a travaillé sur le parseur de cette plateforme. Il y avait un gros travail pour préserver les anciennes analyses mélangées avec de nouvelles qui parfois étaient faites en doublons.
Sans rentrer dans les détails, nous insistons sur les bonnes pratiques conseillées lors d’analyses de plateforme :
- Ne pas supprimer ou modifier une analyse existante
- Ajouter une nouvelle analyse, même si vous avez un doute sur sa pertinence. Contactez l’équipe ezTEAM si vous souhaitez un support.
- Pensez à vérifier la présence des identifiants « title_id » ou « unit_id » dans les URLs et indiquez ces informations dans les champs prévus dans le formulaire d’analyse.
Ces informations sont souvent essentielles pour le bon fonctionnement d’une expression régulière dans un parseur.
Comme vous pouvez le constater, beaucoup d’analyses et de tests ont été réalisés pour cette plateforme.
Le plus simple est de tester vous-même ce parseur avec ezLOGGER, si vous possédez un abonnement, et de vérifier si les consultations typées correspondent bien au document visualisé.
La mise à jour de votre instance locale permettra aussi de bénéficier de toutes ces corrections automatiquement lors de vos traitements de logs.
Bonne journée.
Frédéric Truong pour ezTEAM.