Un catalogue de données n’est pas un musée où l’on archive des fiches pour la postérité. C’est un produit vivant, un moteur de recherche pour les données de l’entreprise. Sa seule mesure de succès est son adoption. Si les utilisateurs ne trouvent pas ce qu’ils cherchent, ou si les fiches sont obsolètes, le catalogue devient une dette à maintenir. La solution est simple : mesurer l’usage pour guider l’amélioration continue, et ne pas avoir peur de supprimer ce qui n’est pas utilisé.
prérequis
- Instrumentation des logs: Avoir mis en place un suivi des recherches, des vues de fiches et des clics dans votre catalogue.
- Fiches concises: Des fiches de métadonnées courtes, bien taguées et facilement indexables.
- Canal de feedback: Un moyen simple pour les utilisateurs de signaler une erreur ou de poser une question (ex: un bouton “suggérer une modification”).
idées clefs
- Analyser les top requêtes et les recherches sans résultat: Les recherches populaires vous montrent ce qui a de la valeur. Celles qui ne retournent rien vous montrent la demande non satisfaite.
- Identifier les fiches “stars” et les fiches “orphelines”: Mettez en avant ce qui est le plus consulté. Archivez sans pitié ce qui ne l’est pas.
- Mettre en place une boucle de correction rapide: Un feedback utilisateur doit être traité en quelques jours, pas en quelques mois.
pas à pas
étape 1: analyser ce que les gens cherchent
C’est la source de vérité la plus pure. Les logs de recherche vous disent ce que les utilisateurs veulent, avec leurs propres mots.
-- Top 20 des termes de recherche sur les 30 derniers jours
SELECT
search_query,
COUNT(*) AS search_count,
-- Est-ce que cette recherche a abouti à un clic ?
ROUND(100.0 * COUNT(clicked_result_id) / COUNT(*), 1) as click_through_rate_pct
FROM
logs.catalog_searches
WHERE
search_timestamp >= CURRENT_DATE - INTERVAL '30 day'
GROUP BY 1
ORDER BY search_count DESC
LIMIT 20;
Analysez particulièrement les requêtes avec un click_through_rate bas ou nul. C’est le signal que votre catalogue ne répond pas à la demande.
étape 2: nettoyer ce qui n’est pas utilisé
Un catalogue plein de fiches inutiles est pire qu’un catalogue vide, car il dégrade la confiance. Mettez en place une politique d’archivage automatique.
-- Identifier les fiches "orphelines" qui n'ont pas été vues depuis 6 mois
SELECT
dataset_id,
owner_team,
last_viewed_timestamp
FROM
catalog.datasets_metadata
WHERE
last_viewed_timestamp < CURRENT_DATE - INTERVAL '180 day'
AND is_archived = false;
-- Une fois identifiées, archivez-les.
-- DELETE FROM catalog... ou UPDATE SET is_archived = true...
étape 3: améliorer en boucle
L’analyse des logs doit déclencher des actions concrètes. C’est un processus continu.
- Recherche sans résultat “c.a.” ? -> Ajoutez “chiffre d’affaires” comme synonyme de la fiche
ventes.daily_revenue. - La fiche
clients_v2est la plus vue ? -> Mettez-la en avant sur la page d’accueil. Ajoutez des exemples de requêtes SQL pour aider les nouveaux utilisateurs. - Les utilisateurs cliquent sur
customerspuis reviennent en arrière ? -> La description est probablement mauvaise. Pointez-les vers la vueclients_actifs_v1qui est la bonne source de vérité.
pièges fréquents
-
Symptôme: Personne ne lit la documentation des données.
- Cause: Les fiches sont des romans de 10 pages générés automatiquement.
- Correctif: Une fiche utile est courte. Elle contient : une description simple, le nom du propriétaire, la fraîcheur de la donnée, et un exemple de code. Rien de plus.
-
Symptôme: On navigue “à l’aveugle”, sans savoir si le catalogue est utile.
- Cause: Pas de mesure d’usage.
- Correctif: Mettre en place des logs simples est la priorité numéro un. Sans données, pas d’amélioration possible.
-
Symptôme: Le catalogue contient des milliers de fiches, la plupart datant de projets morts il y a 3 ans.
- Cause: Aucune politique d’archivage. On a peur de supprimer.
- Correctif: Mettre en place un cycle de vie. Une fiche non consultée pendant 6 mois est archivée. Si personne ne se plaint pendant les 6 mois suivants, elle est supprimée.
faq
-
Comment démarrer si on n’a aucun log d’usage ? Commencez de la manière la plus simple possible. Ajoutez un lien “Donner un feedback” sur chaque fiche qui ouvre un email pré-rempli. C’est déjà une source d’information précieuse.
-
Qui est responsable de la maintenance du catalogue ? C’est une responsabilité partagée. Les data stewards ou l’équipe de gouvernance sont responsables de l’analyse et de l’animation du processus. Les data owners (les équipes métier) sont responsables de la qualité du contenu de leurs fiches.