Bonjour,
HighWire est un agrégateur de différents Editeurs scientifiques américains. Dans ezPAARSE, nous avons développé un parseur commun à tous ces éditeurs car, pour une majorité d’entre eux, les structures d’URLs de consultations sont identiques. Seuls les domaines et les identifiants sont différents.
Quelques exemples de domaines reconnus dans le parseur de la plateforme HighWire :
- science.sciencemag.org
- aem.asm.org
- www.pnas.org
Quelques exemples d’URLs de consultation d’ARTICLE au format HTML pour 3 revues distinctes :
- http://science.sciencemag.org:80/content/341/6145/499.full
- http://aem.asm.org:80/content/82/2/438.full
- http://www.pnas.org:80/content/101/44/15664.full
On voit que la forme d’URL est commune aux 3 éditeurs. Les identifiants indiqués après /content/ sont :
/341/ volume de la revue
/6145/ numéro de la revue
/499 première page de l’article
Comparaison DES statistiques Éditeurs avec ezPAARSE
Notre collègue Sonia Launay , correspondante documentaire du Portail BibCnrs s’est engagée dans une comparaison des rapports COUNTER fournis par Highwire avec les événements de consultations produits dans ezPAARSE. Au cours de son étude, elle s’est rendue compte que les requêtes type ARTICLE HTML étaient très importantes dans les rapports générés par ezPAARSE.
Un état des lieux de la plateforme
Après des tests approfondis sur l’ensemble des titres consultés sur le portail BibCnrs nous constatons que :
-
3 domaines ont un paramétrage différent pour les Urls Abstract / Article
Il s’agit de sciencemag.org, asm.org et jbc.org
Par exemple, l’URL de consultation suivante :
http://science.sciencemag.org/287/5457/1489 est un abstract (ABS) reconnu dans ezPAARSE comme un ARTICLE
Voici un exemple correspondant au problème décelé lors de la comparaison des statistiques éditeurs/ezPAARSE pour les Revues Science et PNAS :
htpp:/science.sciencemag.org/content/360/6385/209
Cette consultation correspond à un abstract (résumé) à laquelle on attribue donc le type ABS.
La revue PNAS :
http://www.pnas.org/content/115/16/4021
C’est bien la même URL, nous consultons ici un ARTICLE et non pas un ABS. c’est le type de consultation par défaut appliqué à l’ensemble des éditeurs agrégés sur HighWire.
La correction sur le parseur
Notre développeur Yannick a inséré dans le parseur une liste « d’exclusion » pour les éditeurs qui affichent un ABS au lieu d’un ARTICLE.
Cette correction est très importante car elle va permettre de rétablir le bon comptage des articles (qui étaient comptés en double pour SCIENCE).
Les tests avec ezLOGGER
Les tests montrent que pour une structure d’URL identique, nous avons désormais bien un ABS pour Science et un ARTICLE pour PNAS.
Les autres corrections
- HighWire a développé une nouvelle plateforme (basée sur ATYPON) en parallèle de l’actuelle version pour certains éditeurs avec de nouvelles URLs de consultation.
Nous avons fait les analyses et mis à jour le parseur qui en tient désormais compte.
Ces consultations sont maintenant analysées dans ezPAARSE, ce qui n’était pas le cas auparavant.
Ce type de plateforme fournit le DOI dans les URLs, permettant à ezPAARSE d’enrichir les ECs à l’aide de l’API Crossref.
Bilan
La correction apportées au parseur pour permettre de qualifier au plus juste les ABS et les ARTICLE ne peut couvrir l’ensemble de la plateforme Highwire. En effet, nous avons décelé pendant nos tests une autre contrainte qui souligne l’incohérence du paramétrage de l’agrégateur pour ses Urls. Les archives mises en ligne (à partir des années 1990) n’ont pas de version ARTICLE au format HTML mais uniquement en PDF, par exemple :
http://dev.biologists.org/content/116/1/1
Les articles de ces archives n’ont pas de version HTML, l’Url correspond par défaut à un ARTICLE, alors qu’il s’agit d’un ABS.
Dans l’état actuel, nous ne pouvons ajouter une autre restriction qui va interférer sur celle déjà mise en place. De plus, il n’est pas possible de connaitre pour tous les éditeurs les années précises ou l’ARTICLE en HTML n’est plus présent. Heureusement, il est à souligner que les consultations se portent en majorité sur les années récentes, le delta d’erreur devrait être minimisé.
Nous vous invitons maintenant à tester le parseur de Highwire et à traiter à nouveau vos logs de l’année 2017 avec une instance d’ezPAARSE mise à jour avant de procéder à une comparaison avec les statistiques éditeurs.
Bonne journée.
Frédéric Truong pour ezTEAM