Bonjour,
Nous allons évoquer dans cet article le nouveau parseur de la base ProQuest développé par notre collègue Laurent Lhuillier. C’est le premier parseur qu’il réalise et toute l’équipe ezTEAM tient à le remercier pour sa contribution dans ezPAARSE.
ProQuest permet d’accéder à des résumés de documents divers (ARTICLES, THESES, CITATIONS). Dans le portail BibCnrs, nous pouvons consulter ces documents dans le domaine SHS.
Les analyses
Notre collègue a fait les analyses de la base en balayant un large éventail des différents types de consultations.
Le parseur
Ensuite, il a commencé à développer le parseur. Il s’est vite rendu compte que cela n’était pas simple en constatant que la forme des Urls ne permettent pas de faire la distinction entre des ARTICLES et des THESES (PHD_THESIS). Dans un commentaire posté sur la carte Trello de la plateforme ProQuest , il informe les autres contributeurs de son choix d’attribuer par défaut le Rtype ARTICLE pour permettre la finalisation d’une première version du parseur.
Nous avons validé sa « pull-request » (dans Github, il s’agit de proposer un développement de parseur et demander l’avis et la validation à l’équipe ezTEAM).
Les tests avec ezLOGGER
Nous avons testé le parseur à l’Inist-CNRS, et nous avons constaté son bon fonctionnement. Les consultations de documents (ARTICLES, THESES) sont typées ARTICLE comme cela l’a été proposé par défaut.
Bilan
Nous invitons tous les collègues abonnés à ProQuest à tester également ce parseur et faire un commentaire sur la carte Trello de la plateforme. N’hésitez pas à ajouter de nouvelles analyes, et à échanger sur le choix du Rtype ARTICLE proposé par Laurent Lhuillier . La plateforme ne permet pas de différencier les différents types de documents, c’est une problématique pour un comptage affiné. Nous espérons que cela pourra évoluer positivement et nous comptons sur votre participation pour améliorer et faire évoluer le parseur.
Bon week-end de Pâques.
Frédéric Truong pour ezTEAM