Analyses de plateformes : journée parseurs spéciale EDP SCIENCES

journee parseurs

 

SPECIALE EDP SCIENCES

logo_edp

Bonjour,

C’est une journée parseurs un peu particulière que nous vous présentons aujourd’hui. Il s’agit de la mise à jour complète de la plateforme EDP SCIENCES dans ezPAARSE.
Suite à une collaboration avec l’éditeur scientifique, nous avons fait le point sur l’ensemble des URLs d’accès aux articles mis en ligne sur la plateforme. Voici un extrait du document de travail :

edp urls fournies par l'éditer 2021

 

Nous avons ajouté les analyses manquantes. Vous pouvez retrouver l’ensemble des analyses dans AnalogIST  :

edp analyses 2021

 

Yannick Schurter a procédé au « refactoring » du parseur EDP. Les PKB (listes Kbart) de la plateforme sont également à jour, et proviennent de API Bacon.
Vous pouvez consulter le code intégral sur GitHub.

parseur EDP 2021

 

Note importante :

Les revues de la platefome EDP Science sont hébergées sur des domaines qui leur sont propres. La revue Cahiers Agricultures, par exemple, est hébergée sur le domaine www.cahiersagricultures.fr. Pour savoir sur quels domaines le parseur doit s’exécuter, il est donc nécessaire de les extraire depuis les PKB, en précisant dans la propriété pkb-domains du fichier manifest.json, le nom de la colonne contenant les domaines.

Jusqu’ici, ces derniers étaient contenus dans la colonne title_id, qui correspond à l’identifiant de la revue. Or, cette colonne ne contient plus le domaine, mais un identifiant plus classique (par exemple, cagri pour Cahiers Agricultures). Pour palier ce changement, la propriété pkb-domains a été modifiée pour pointer sur le champ title_url. Parallèlement, des modifications ont été apportées à ezPAARSE pour extraire le domaine si les valeurs de la colonne spécifiée par « pkb-domains » contiennent des URLs.

Ces modifications dans ezPAARSE ont entrainé un patch de mise à jour de la version 3.6.4 vers 3.6.5. Il est donc important, avant de tester le parseur, de mettre à jour son instance locale ezPAARSE et de procéder à un redémarrage du logiciel.

ezpaarse v365 mise a jour

 

Vérifiez bien la nouvelle version d’ezPAARSE, ainsi que la mise à jour des plateformes. Tous les voyants doivent être au vert !

 

Nous avons ensuite testé la plateforme avec l’extension ezLOGGER :

ezlogger edp 2021

Nous avons constaté que les URLs étaient correctement prises en compte dans ezPAARSE, que ce soit le type et le format du document consulté.

 

Nous vous invitons donc à tester ce parseur. La plateforme EDP Sciences a été certifiée H et P en 2019 avec les données du CNRS. Si vous souhaitez faire des comparaisons avec les données éditeurs, pensez à mettre à jour ezPAARSE avant le retraitement complet de vos logs pour 2020 et 2021 en cours.

 

Bonne journée.

Frédéric Truong pour ezTEAM.