Le débat théorique entre Data Mesh et Data Fabric a longtemps masqué une réalité opérationnelle complexe : comment faire les deux en même temps sans une armée d’ingénieurs ? L’acquisition récente de “Catalog.io” par un grand acteur du cloud et le lancement de leur suite “Unified Governance” est une réponse forte à ce problème. En intégrant un catalogue de données actif, un moteur de politiques et des outils de lignage dans une seule offre, ces nouvelles plateformes rendent enfin possible l’implémentation d’une architecture hybride : les domaines métier sont autonomes pour publier leurs produits de données (le Mesh), tandis qu’une couche de gouvernance centrale les rend découvrables, sécurisés et fiables (la Fabric).
le meilleur des deux mondes, outillé
L’architecture qui en résulte n’est plus un compromis, mais une synthèse.
ce que ça change en pratique
1. la propriété est décentralisée, la découverte est centralisée
Chaque équipe métier (domaine) reste propriétaire de ses données. Elle utilise ses propres outils (ex: dbt) pour créer et tester ses “produits de données”. La nouveauté, c’est qu’une fois publié, le produit est automatiquement découvert et indexé par le catalogue central de la plateforme.
# Exemple de définition d'un produit de données par le domaine
# Fichier: marketing/data_products/campaigns_v2.yml
product:
name: "marketing.campaigns_v2"
owner: "@team-marketing"
description: "Performance quotidienne des campagnes publicitaires."
sla:
freshness_hours: 12
quality_tests:
- "cpc_eur > 0"
2. la gouvernance est déclarative et globale
Les règles de sécurité et de conformité ne sont plus codées en dur dans chaque pipeline. Elles sont définies de manière centralisée dans le moteur de politiques. L’accès à une colonne contenant des PII, par exemple, peut être restreint pour tous les produits de données de l’entreprise en une seule règle.
# Exemple de politique globale dans "Unified Governance"
policy:
name: "masquer-emails-par-defaut"
target_resource: "*.*.email" # Cible toutes les colonnes 'email'
action: "apply_masking"
allowed_roles: ["support_level_2", "compliance_officer"]
3. le lignage devient le système nerveux de la plateforme
En analysant les requêtes, la plateforme unifiée construit automatiquement un graphe de lignage de bout en bout. Un changement sur une table source ne se fait plus à l’aveugle. On peut simuler l’impact et notifier automatiquement les propriétaires de tous les dashboards et modèles en aval.
un nouveau rôle pour l’équipe plateforme
L’équipe data centrale ne disparaît pas. Son rôle se transforme. Elle n’est plus la “gardienne du temple” qui construit tous les pipelines, mais la “gardienne des rails” qui :
- Configure et maintient la plateforme de gouvernance unifiée.
- Définit les standards et les templates pour les produits de données.
- Fournit le support et la formation aux équipes de domaine.
pièges à éviter
- L’illusion du “zéro code”: Ces plateformes simplifient la gouvernance, mais elles ne remplacent pas la nécessité d’une ingénierie de données rigoureuse au sein des domaines. Un produit de données de mauvaise qualité restera un produit de mauvaise qualité.
- La centralisation excessive: Si l’équipe plateforme devient un goulot d’étranglement pour la validation des politiques ou des produits, on perd tous les bénéfices d’agilité du Mesh. Le self-service doit rester le principe directeur.
- Oublier les coûts: Une gouvernance active a un coût de calcul. Le monitoring des requêtes générées par le lignage et le moteur de politiques est essentiel.
faq
-
Faut-il adopter une de ces plateformes unifiées pour faire du data mesh ? Non, mais ça aide énormément. Sans un outillage intégré, vous devez construire et maintenir vous-même la “fabric” (le catalogue, le moteur de politiques, etc.), ce qui est un projet complexe en soi.
-
Comment commencer si on a déjà un data warehouse monolithique ? Commencez par un domaine pilote. Choisissez une équipe métier motivée, aidez-la à définir un ou deux produits de données critiques, et utilisez la nouvelle plateforme pour les exposer et les gouverner. Montrez la valeur sur un périmètre restreint avant de généraliser.
-
Quel est l’impact sur les data analysts ? Très positif. Ils passent moins de temps à chercher la bonne table ou à douter de la fiabilité d’un chiffre. Le catalogue leur donne un point d’entrée unique et fiable, et le lignage leur permet de comprendre d’où vient la donnée.