Analyses de plateformes : Journée parseurs pour les plateformes WOS, ENI, IEEE et IWA

Bonjour,

Chaque mois Yannick Schurter, Steven Wilmouth et moi-même nous réunissons pendant une journée pour faire le point sur les plateformes qui sont listées dans le Trello « Suivi des plateformes ».

L’objectif de ces sessions est de recenser les dernières analyses réalisées par les contributeurs (plateformes en statut « 3 – Analyse des URLs terminée » dans le tableau Trello) et de procéder à la mise à jour de leur parseur dans ezPAARSE.

Voici le bilan de cette dernière session :

wos logo

 

WOS

Deux nouvelles analyses ont été ajoutées au parseur existant à la demande du Service Portail du CNRS

Pour ces consultations ANALYSIS/ SEARCH  nous avons  également ajouté 2 nouveaux domaines dans le fichier manifest du parseur :

 

wos ezlogger 2 analyses

jrc.clarivate.com et esi.clarivate.com sont maintenant déclarés comme domaines connus pour cette plateforme.

Nous avons testé avec ezLOGGER et nous validons la reconnaissance de ces consultations dans ezPAARSE.

 

ENI logo

Bibliothèque numérique ENI

Notre collègue Sophie Crépin de l’Université Paris 8 nous a signalé un problème de « bruit » avec l’URL suivante :

http://www.eni-training.com/client_net/manageSession.aspx

qui représente 60% des résultats. Sophie a déposé un fichier de logs de consultation de la base obtenu grâce à ezLOGGER:  export_ENI.log puis le parseur a été corrigé pour ne pas tenir compte de ce type d’URL. La modification a été validée avec ezLOGGER et son retour positif a validé la correction du parseur.

ENI ezlogger OK

On peut désormais constater le rejet de ces URLs « manageSession » dans ezPAARSE.

 

IEEE logo

IEEE

Nous avons travaillé sur l’enrichissement de la plateforme IEEE avec la mise à jour des PKB (base de connaissance)

ieee pkb 2019

Ces PKBs sont disponibles pour enrichir les ECs (événements de consultation) avec les métadonnées (titres de revues, ISSN, etc.) lors d’un traitement des logs dans ezPAARSE.

Nous avons constaté deux problèmes :

  • les fichiers KBART récupérés chez l’éditeur contiennent des guillemets non échappés et des espaces supplémentaires qui interfèrent avec le traitement automatique de ces fichiers (le problème leur a été signalé dans la foulée)
  • Les URLs de consultations ARTICLE ne contiennent pas d’identifiant title_id. C’est cet identifiant qui permet l’interrogation vers la PKB et l’enrichissement bibliographique avec le titre de publication et l’ISSN dans les ECs.

Il a donc fallu retirer du parseur la majorité des title_id car, en dehors des TOC et des ABS, les identifiants sont au niveau de l’ARTICLE et non de la revue.

IEEE ezlogger kbart TOC

 

Après la mise à jour, le test effectué avec ezLOGGER montre que l’enrichissement fonctionne pour les TOC. En revanche la consultation ARTICLE n’est pas qualifiée. Nous attendons un retour et une correction des fichiers KBART de l’IEEE pour finaliser ce travail.

iwa logo

IWA

Suite aux 3 analyses de notre collègue Timothée Hulin de l’Université de Paris 3 , nous avons développé un nouveau parseur pour la plateforme IWA.

iwa analyses

 

Les consultations TOC et ARTICLE au format HTML ont été prises en compte dans ce nouveau parseur et les Tests avec ezLOGGER valident ce développement

iwa ezlogger html et toc

En revanche, nous avons rejeté l’analyse de consultation ARTICLE au format PDF

https://iwaponline-com.accesdistant.sorbonne-universite.fr/hr/article-pdf/50/2/417/548502/nh0500417.pdf

En effet, il s’avère que cette URL est une redirection vers une autre URL déjà analysée sur le parseur SILVERCHAIR

iwa pdf url plateforme SILVERCHAIR

SILVERCHAIR est un agrégateur de plusieurs éditeurs . La consultation est bien prise en compte mais sur la plateforme SILVERCHAIR, et il n’est pas possible d’avoir le titre de la revue consultée.

Nous vous invitons à tester ces plateformes en utilisant ezLOGGER ou avec un fichier de logs dans votre instance locale mise à jour au préalable. N’hésitez pas à nous faire un retour en utilisant le tableau trello des plateformes.

Bonne journée.

Frédéric Truong pour ezTEAM.