Bonjour,
Nous avons procédé à une mise à jour du parseur de la plateforme OpenEdition.
Cet article relate des nouveaux paramètres pris en compte que nous allons vous détailler.
Deux domaines distincts
Les deux domaines permettent de distinguer les consultations des revues et des books.
Les DOI
Il y a deux formes de DOI sur OpenEdition :
- Pour les articles de revues DOI : 10.4000/cybergeo.23737
- Pour les chapitres de book DOI : 10.4000/books.oep.332
Plus d’informations en cliquant ici
En revanche, l’Url de consultation ne contient pas le DOI complet, nous l’avons donc reconstitué en y ajoutant le préfixe 10.400 de la plateforme.
URL : http://journals.openedition.org/cybergeo/22737
DOI : 10.4000/cybergeo.23737
Dans cet exemple, la reconstitution ajoute le préfixe 10.400/ suivi du title_id (revue) . identifiant du document .
URL : http://books.openedition.org/oep/332
DOI : 10.4000/books.oep.332
Dans cet exemple, la reconstitution ajoute le préfixe 10.400/ books. nom de l’Editeur abrégé . identifiant du document.
Les contraintes pour définir les Rtypes
Même si les deux domaines permettent de différencier les revues des books, les Urls de la plateforme OpenEdition sont identiques :
- Pour les revues, il est impossible de savoir si la consultation est un TOC (sommaire) ou un ARTICLE
- Pour les books, il est impossible de faire la différence entre un BOOK et un BOOK_SECTION (chapître)
Il n’y a pas d’indication de rtype dans l’url, seul l’identifiant du document permet de référencer le type de document.
Le choix technique proposé POUR le parseur
Pour permettre le comptage, Yannick, qui a développé le parseur, a choisi de prendre en compte la taille du document et une règle a été attribuée pour tenter de reconnaître le type de consultation :
Journal <10ko = rien
Journal >10ko = ARTICLE
Book >1mo = BOOK
Book <1mo = BOOK_SECTION
Les informations de taille d’un document consulté figurent dans les logs, on appelle cela « size ». Ils figurent également dans les Ecs d’ezPAARSE juste après le « statut » de la consultation.
Nous sommes conscient que ce choix ne permettra pas d’obtenir un résultat précis du type de consultation. Ce sera plus une tendance, en effet, il y a toujours une marge d’erreur, surtout entre un chapître et un book.
Résultat des tests
Les premiers résultats dans ezLOGGER montrent que le parseur peut identifier les différents types de consultations. Un test de logs traités dans l’instance d’ezPAARSE montre également les deux domaines de la plateforme, ainsi que le type de document, les enrichissements issus de la PKB (publication-title, ISSN ) et du DOI reconstitué interrogé par le middleware vers l’API Crossref.
Nous vous invitons à tester également dans votre établissement le parseur avec ezLOGGER. Vous avez également la possibilité de retraiter vos logs dans votre instance locale mise à jour au préalable.
Bonne journée.
Frédéric Truong pour ezTEAM