Faq : Qu’est-ce que le format EZC ?

Analyse de log et enrichissement

L’objectif d’ezPAARSE est de traiter des log (traces) et de produire des données d’usage des ressources électroniques (évènements de consultation).

Le logiciel se comporte comme un filtre qui au passage peut enrichir les informations rencontrées à partir d’identifiants présents dans les logs. Les données sont générées dans des fichiers textes, CSV ou JSON et le modèle de donnée en sortie est paramétrable. Nous vous conseillons d’utiliser deux modèles principaux, que nous nommons EZC et EZE pour ezPAARSE common format et ezPAARSE ESR format.

Le modèle du format EZC est généré par défaut par ezPAARSE. Le modèle du format EZE est un format enrichi permettant d’agréger des méta-informations propres aux organismes de l’Enseignement Supérieur Recherche.

On peut ranger les données en deux catégories principales.

Informations documentaires

Les informations documentaires reflètent la ressource consultée lorsqu’elle est identifiée et les enrichissements réalisées à partir des middleware d’ezPAARSE,

Celles-ci dépendent de la plateforme d’origine de la ressource. Les ressources reconnues sont communes à tous les utilisateurs d’ezPAARSE.

Nous vous conseillons de ne pas modifier les noms des champs en sortie d’ezPAARSE de manière à pouvoir utiliser les visualisations de données proposées avec les données génériques .

Informations utilisateurs

Les fichiers de logs peuvent contenir des informations utilisateurs. A minima, ce sont un identifiant machine et un identifiant de connexion utilisateur. La combinaison de ces informations permet à ezPAARSE de distinguer les utilisateurs uniques et d’appliquer le filtre de dédoublonnage de l’algorithme COUNTER. Par défaut, ces champs sont chiffrés par ezPAARSE à l’aide d’un sel aléatoire de manière à respecter la législation sur les données personnelles. Le sel de chiffrement peut être choisi de manière à distinguer les utilisateurs uniques sur une période supérieure à celle issue d’un même traitement ezPAARSE.

Chaque organisme peut, à l’aide de l’identifiant connexion utilisateur présent dans le fichier de log, enrichir le fichier avec des informations d’appartenance de l’utilisateur aux différentes cohortes caractérisant le type d’utilisateur (étudiant, chercheur, ..) ou niveau d’étude, spécialités scientifique…

Ces caractéristiques doivent garder un niveau macroscopique dans le respect de la législation sur les données personnelles. Avec le format EZE, nous vous proposons un cadre commun à l’ESR de manière à permettre des agrégations au niveau national donnant un angle de vision supplémentaire aux données d’usage des ressources électroniques (par exemple dans l’aide aux négociateurs pour les licences nationales).

EZC : ezPAARSE Common Format

Champ Descriptif Exemple
date   2020-08-12
datetime essentiel à l’indexation dans ezMESURE 2020-08-12T00:14:34+02:00
db_id vient du middleware ebscohost / identifiant de base de donnée UA
db_title vient du middleware ebscohost / nom de base de donnée  
doi identifiant normalisé de la ressource  
domain domaine de la plateforme de la ressource apps.webofknowledge.com
ezpaarse_date   2020-07-10
ezpaarse_version   3.3.2005
ezproxy-session   1ITpCKZHAOyQWGt
geoip-country vient du middleware geolocalizer FR
geoip-latitude vient du middleware geolocalizer 50.6167
geoip-longitude vient du middleware geolocalizer 3.1666
host adresse ip de l’utilisateur, chiffré par défaut par ezPAARSE d157f79d50082e62ee36f0c64f2f21c087bb6d78
identd autre type d’identifiant utilisateur rarement utilisé  
log_id identifiant unique de la ligne de log bab78cc90498326d2540bc4ffe9c278c09f9243d
login login de connexion, chiffré par défaut 3e9c6e1ebb01a017b19d03e3e4b7e98e302e72d1
middlewares liste des middlewares utilisés par le traitement filter, parser, deduplicator, istex, crossref, sudoc, hal, enhancer, geolocalizer, cut, on-campus-counter, qualifier, ebscohost, populate, anonymizer
middlewares_date   2020-07-07
middlewares_version   4567825
mime format de la ressource HTML
on_campus vient du middleware on-campus-counter, permet de déterminer l’origine de la requête de l’utilisateur selon son adresse IP et sa présence sur un campus N
online_identifier ISSN en ligne de la revue  
platform nom court de la plateforme d’hébergement wos
platform_name nom long de la plateforme d’hébergement Web of Science
platforms_date date de mise à jour du parseur 2020-07-09
platforms_version version du parseur 90dd3c1
print_identifier ISSN papier de la revue  
publication_date date de publication  
publication_title titre de publication  
publisher_name nom de l’éditeur  
rtype type de consultation SEARCH
size taille de la requête 169391
status status de la requête 200
subject vient du middleware crossref / domaine scientifique  
title vient du middleware crossref / titre de la ressource  
title_id identifiant revue utilisé par la plateforme éditeur  
type vient du middleware crossref / type de la ressource  
unitid identifiant de la ressource sur la plateforme éditeur  
url URL de la requête http://apps.webofknowledge.com:80/UA_GeneralSearch_input.do?product=UA&search_mode=GeneralSearch&SID=C4uP44XLKHQ5DtAz5Z5&preferencesSaved=

Lorsque vous produisez des événements de consultations en analysant vos log avec ezPAARSE, celui-ci produit un fichier résultat avec un certain nombre de champs par défaut.

Il est conseillé de conserver un certain nombre de champs de gestion utilisés pour l’administration des données (même s’il ne sont pas obligatoires). Il s’agit des champs : ezpaarse_version, ezpaarse_date, middlewares_version, middlewares_date, platforms_version, platforms_date, middlewares.

A l’issue d’un traitement, il est possible de voir le premier EC généré et les champs qui le composent.

Ces champs en sortie font partie du paramétrage d’ezPAARSE.

 

Vous pouvez ajouter ou retirer des champs en personnalisant les paramètres de votre sortie ezPAARSE et même enregistrer ces paramétrages.

 

En respectant le format EZC, c’est à dire en conservant les champs utiles pour des agrégations standard des sorties ezPAARSE vous pourrez obtenir des tableaux de bord par défaut cohérents dans ezMESURE après avoir chargé vos données.

En effet, si votre format de sortie ne contient plus les champs communs, les tableaux de bords par défaut ne pourront plus montrer les agrégations classiques et vont renvoyer des erreurs.

Les contrôles en entrée d’ezMESURE sont minimalistes et ne permettent que de garantir une indexation correcte, pas la cohérence d’affichage des tableaux de bord par défaut.

 

EZE : ezPAARSE ESR Format

Le format EZE, propose un cadre commun à l’ESR de manière à permettre des agrégations au niveau national

Nous vous conseillons de nommer ces champs de la façon suivante si vous souhaitez respecter le format EZE :

Champ Descriptif Exemple
code_etablissement Identifiant UAI 0597065J
libelle_etablissement Libellé du code UAI UNIVERSITE DE LILLE
code_etab_niv1 Code établissement de niveau 1 ST15
libelle_etab_niv1 Libellé du code établissement de niveau 1 UFR DEVELOPPEMENT SOCIAL, EDUCATION, CULTURE, COMMUNICATION, INFORMATION, DOCUMENTATION
code_etab_niv2 Code établissement de niveau 2 ST1602
libelle_etab_niv2 Libellé du code établissement de niveau 2 DEPARTEMENT LANGUES ET CULTURES ANTIQUES
code_labo_idref Code IdRef 094767386
code_type_ind Code du type individu DOC, ENSCHER…
libelle_type_ind Libellé du type Etudiant en Doctorat
code_labo_aurehal Code Référentiels HAL 11909
code_labo_rnsr Code Répertoire national des structures de recherche 200612815H
code_labo_interne   ST5063
code_labo_umr Code Unité Mixte de Recherche 8163

Le format EZE est tiré de la proposition de Rachid Aliouat qui l’utilise pour l’Université de Lille