FAQ : Pourquoi y’a-t-il parfois un écart entre le nombre d’EC généré par ezPAARSE et celui qu’on retrouve sur ezMESURE ?

faq ezmesure

Bonjour à tous,

Il peut arriver qu’un écart soit constaté entre le nombre d’Événements de Consultation (ECs) indiqué dans le fichier de résultat généré par ezPAARSE et celui affiché dans ezMESURE.

Cette différence est due à la manière dont les ECs sont stockés dans ezMESURE.

En effet, chaque EC est identifié par un champ « log_id » qui correspond à un hash (SHA1) de la ligne de log brute. Cet identifiant unique nous permet d’éviter les doublons lorsqu’un même fichier est chargé plusieurs fois dans ezMESURE. Lors d’un chargement, les ECs dont le log_id existe déjà sont mis à jour ; les autres sont insérés.

Or, il arrive régulièrement que plusieurs lignes strictement identiques apparaissent dans les fichiers de logs. Une partie de ces lignes est ignorée et/ou dédoublonnée en amont par ezPAARSE, mais certaines subsistent et se retrouvent dans les résultats. Il s’agit principalement de consultations qui ne portent pas sur une ressource précise, comme celles de type SEARCH (recherche) par exemple, et qui ne sont pas concernées par le dédoublonnage COUNTER.

Ainsi, lors du chargement de nouveaux ECs, il est courant de constater un faible taux de mises à jour à cause de ces identifiants en doublon. Cela reste cependant marginal, représentant généralement moins de 1 % des ECs chargés.

Il est à noter que l’API d’ezMESURE ne permet pas de récupérer une liste de ces doublons. Cependant, leur présence peut être repérée assez facilement dans les fichiers avec une commande de ce type :

cat *.csv | uniq -D

Bonne journée à toutes et à tous,

Léa Doridant et Yannick SCHURTER pour ezTEAM