Analyse de log et enrichissement
L’objectif d’ezPAARSE est de traiter des log (traces) et de produire des données d’usage des ressources électroniques (évènements de consultation).
Le logiciel se comporte comme un filtre qui au passage peut enrichir les informations rencontrées à partir d’identifiants présents dans les logs. Les données sont générées dans des fichiers textes, CSV ou JSON et le modèle de donnée en sortie est paramétrable. Nous vous conseillons d’utiliser deux modèles principaux, que nous nommons EZC et EZE pour ezPAARSE common format et ezPAARSE ESR format.
Le modèle du format EZC est généré par défaut par ezPAARSE. Le modèle du format EZE est un format enrichi permettant d’agréger des méta-informations propres aux organismes de l’Enseignement Supérieur Recherche.
On peut ranger les données en deux catégories principales.
Informations documentaires
Les informations documentaires reflètent la ressource consultée lorsqu’elle est identifiée et les enrichissements réalisées à partir des middleware d’ezPAARSE,
Celles-ci dépendent de la plateforme d’origine de la ressource. Les ressources reconnues sont communes à tous les utilisateurs d’ezPAARSE.
Nous vous conseillons de ne pas modifier les noms des champs en sortie d’ezPAARSE de manière à pouvoir utiliser les visualisations de données proposées avec les données génériques .
Informations utilisateurs
Les fichiers de logs peuvent contenir des informations utilisateurs. A minima, ce sont un identifiant machine et un identifiant de connexion utilisateur. La combinaison de ces informations permet à ezPAARSE de distinguer les utilisateurs uniques et d’appliquer le filtre de dédoublonnage de l’algorithme COUNTER. Par défaut, ces champs sont chiffrés par ezPAARSE à l’aide d’un sel aléatoire de manière à respecter la législation sur les données personnelles. Le sel de chiffrement peut être choisi de manière à distinguer les utilisateurs uniques sur une période supérieure à celle issue d’un même traitement ezPAARSE.
Chaque organisme peut, à l’aide de l’identifiant connexion utilisateur présent dans le fichier de log, enrichir le fichier avec des informations d’appartenance de l’utilisateur aux différentes cohortes caractérisant le type d’utilisateur (étudiant, chercheur, ..) ou niveau d’étude, spécialités scientifique…
Ces caractéristiques doivent garder un niveau macroscopique dans le respect de la législation sur les données personnelles. Avec le format EZE, nous vous proposons un cadre commun à l’ESR de manière à permettre des agrégations au niveau national donnant un angle de vision supplémentaire aux données d’usage des ressources électroniques (par exemple dans l’aide aux négociateurs pour les licences nationales).
EZC : ezPAARSE Common Format
Champ | Descriptif | Exemple |
date | 2020-08-12 | |
datetime | essentiel à l’indexation dans ezMESURE | 2020-08-12T00:14:34+02:00 |
db_id | vient du middleware ebscohost / identifiant de base de donnée | UA |
db_title | vient du middleware ebscohost / nom de base de donnée | |
doi | identifiant normalisé de la ressource | |
domain | domaine de la plateforme de la ressource | apps.webofknowledge.com |
ezpaarse_date | 2020-07-10 | |
ezpaarse_version | 3.3.2005 | |
ezproxy-session | 1ITpCKZHAOyQWGt | |
geoip-country | vient du middleware geolocalizer | FR |
geoip-latitude | vient du middleware geolocalizer | 50.6167 |
geoip-longitude | vient du middleware geolocalizer | 3.1666 |
host | adresse ip de l’utilisateur, chiffré par défaut par ezPAARSE | d157f79d50082e62ee36f0c64f2f21c087bb6d78 |
identd | autre type d’identifiant utilisateur rarement utilisé | |
log_id | identifiant unique de la ligne de log | bab78cc90498326d2540bc4ffe9c278c09f9243d |
login | login de connexion, chiffré par défaut | 3e9c6e1ebb01a017b19d03e3e4b7e98e302e72d1 |
middlewares | liste des middlewares utilisés par le traitement | filter, parser, deduplicator, istex, crossref, sudoc, hal, enhancer, geolocalizer, cut, on-campus-counter, qualifier, ebscohost, populate, anonymizer |
middlewares_date | 2020-07-07 | |
middlewares_version | 4567825 | |
mime | format de la ressource | HTML |
on_campus | vient du middleware on-campus-counter, permet de déterminer l’origine de la requête de l’utilisateur selon son adresse IP et sa présence sur un campus | N |
online_identifier | ISSN en ligne de la revue | |
platform | nom court de la plateforme d’hébergement | wos |
platform_name | nom long de la plateforme d’hébergement | Web of Science |
platforms_date | date de mise à jour du parseur | 2020-07-09 |
platforms_version | version du parseur | 90dd3c1 |
print_identifier | ISSN papier de la revue | |
publication_date | date de publication | |
publication_title | titre de publication | |
publisher_name | nom de l’éditeur | |
rtype | type de consultation | SEARCH |
size | taille de la requête | 169391 |
status | status de la requête | 200 |
subject | vient du middleware crossref / domaine scientifique | |
title | vient du middleware crossref / titre de la ressource | |
title_id | identifiant revue utilisé par la plateforme éditeur | |
type | vient du middleware crossref / type de la ressource | |
unitid | identifiant de la ressource sur la plateforme éditeur | |
url | URL de la requête | http://apps.webofknowledge.com:80/UA_GeneralSearch_input.do?product=UA&search_mode=GeneralSearch&SID=C4uP44XLKHQ5DtAz5Z5&preferencesSaved= |
Lorsque vous produisez des événements de consultations en analysant vos log avec ezPAARSE, celui-ci produit un fichier résultat avec un certain nombre de champs par défaut.
Il est conseillé de conserver un certain nombre de champs de gestion utilisés pour l’administration des données (même s’il ne sont pas obligatoires). Il s’agit des champs : ezpaarse_version, ezpaarse_date, middlewares_version, middlewares_date, platforms_version, platforms_date, middlewares.
A l’issue d’un traitement, il est possible de voir le premier EC généré et les champs qui le composent.
Ces champs en sortie font partie du paramétrage d’ezPAARSE.
Vous pouvez ajouter ou retirer des champs en personnalisant les paramètres de votre sortie ezPAARSE et même enregistrer ces paramétrages.
En respectant le format EZC, c’est à dire en conservant les champs utiles pour des agrégations standard des sorties ezPAARSE vous pourrez obtenir des tableaux de bord par défaut cohérents dans ezMESURE après avoir chargé vos données.
En effet, si votre format de sortie ne contient plus les champs communs, les tableaux de bords par défaut ne pourront plus montrer les agrégations classiques et vont renvoyer des erreurs.
Les contrôles en entrée d’ezMESURE sont minimalistes et ne permettent que de garantir une indexation correcte, pas la cohérence d’affichage des tableaux de bord par défaut.
EZE : ezPAARSE ESR Format
Le format EZE, propose un cadre commun à l’ESR de manière à permettre des agrégations au niveau national
Nous vous conseillons de nommer ces champs de la façon suivante si vous souhaitez respecter le format EZE :
Champ | Descriptif | Exemple |
code_etablissement | Identifiant UAI | 0597065J |
libelle_etablissement | Libellé du code UAI | UNIVERSITE DE LILLE |
code_etab_niv1 | Code établissement de niveau 1 | ST15 |
libelle_etab_niv1 | Libellé du code établissement de niveau 1 | UFR DEVELOPPEMENT SOCIAL, EDUCATION, CULTURE, COMMUNICATION, INFORMATION, DOCUMENTATION |
code_etab_niv2 | Code établissement de niveau 2 | ST1602 |
libelle_etab_niv2 | Libellé du code établissement de niveau 2 | DEPARTEMENT LANGUES ET CULTURES ANTIQUES |
code_labo_idref | Code IdRef | 094767386 |
code_type_ind | Code du type individu | DOC, ENSCHER… |
libelle_type_ind | Libellé du type | Etudiant en Doctorat |
code_labo_aurehal | Code Référentiels HAL | 11909 |
code_labo_rnsr | Code Répertoire national des structures de recherche | 200612815H |
code_labo_interne | ST5063 | |
code_labo_umr | Code Unité Mixte de Recherche | 8163 |
Le format EZE est tiré de la proposition de Rachid Aliouat qui l’utilise pour l’Université de Lille