← Retour au blog

Les leçons de la conférence Data 2025 pour votre roadmap

Lucian BLETAN

La grand-messe annuelle de la data, la conférence “Data 2025”, vient de fermer ses portes. Au-delà des annonces marketing et des démonstrations impressionnantes, plusieurs tendances de fond se dessinent et devraient influencer nos roadmaps pour les mois à venir. Fini le temps de l’expérimentation à tout-va ; l’heure est à l’industrialisation, à la maîtrise des coûts et à la fiabilité. Voici les trois leçons que nous retenons, et comment nous comptons les traduire en actions concrètes.

1. le “Small Language Model” (SLM) devient la norme pour 80% des usages

Le discours a radicalement changé. Il y a un an, la course était à la taille. Aujourd’hui, la quasi-totalité des retours d’expérience convergent : pour la majorité des tâches spécialisées (classification, extraction, résumé contraint), les modèles de 3 à 7 milliards de paramètres, fine-tunés sur des données internes, surclassent les grands modèles généralistes en termes de coût, de latence et, souvent, de précision.

  • Leçon: Arrêter la course à la puissance. La valeur réside dans la spécialisation.
  • Action pour notre roadmap: Lancer deux projets de distillation pour nos cas d’usage les plus coûteux (classification de support et génération de fiches produits), avec un objectif de diviser par quatre le coût d’inférence d’ici la fin de l’année.

2. les contrats de données sont maintenant une fonctionnalité standard, plus une idée

Ce qui était un concept de niche est devenu une attente de base. Les principaux acteurs de l’entrepôt de données (Snowflake, Databricks) et de la transformation (dbt) intègrent désormais des fonctionnalités natives de “data contracts”. Le message est clair : la qualité et la fiabilité des données ne sont plus négociables.

  • Leçon: La gouvernance “as code” devient la pratique par défaut.
  • Action pour notre roadmap: Migrer nos 20 produits de données les plus critiques vers le nouveau système de contrats natif de notre plateforme. L’objectif est d’avoir des tests de schéma et de fraîcheur qui bloquent la CI pour ces produits avant la fin du trimestre.

définit un

contient

est validé par

si non-conforme

produit de données (ex: `orders_v2`)

contrat (yaml)

schéma, sla, tests qualité

la ci/cd à chaque changement

déploiement bloqué

3. le temps réel est accessible, mais son cas d’usage doit être prouvé

Les outils pour construire des pipelines de streaming sont de plus en plus simples et intégrés. Mais la maturité du marché apporte aussi plus de pragmatisme. La question n’est plus “pouvons-nous le faire en temps réel ?”, mais “devons-nous le faire ?”.

  • Leçon: La fraîcheur a un coût. Le “quasi temps réel” (micro-batch toutes les 5 minutes) est souvent un bien meilleur compromis que le streaming à la milliseconde.
  • Action pour notre roadmap: Pour chaque demande de nouveau pipeline temps réel, exiger une “preuve de valeur” : une estimation chiffrée du gain métier attendu par rapport à un pipeline qui tournerait toutes les 15 minutes.

ce que nous ne ferons PAS

Aussi important que les actions à prendre, il y a celles à éviter.

  • Ne pas se lancer dans la création de notre propre plateforme d’agents IA. Les retours d’expérience ont montré que la technologie est encore trop immature et que les cas d’usage fiables sont rares.
  • Ne pas construire un catalogue de données maison. Les solutions intégrées sont maintenant assez matures pour couvrir 90% de nos besoins en découverte et lignage.
  • Ne pas recruter un “Head of AI” sans un problème métier clair à lui confier. La stratégie doit guider le recrutement, pas l’inverse.

faq

  • L’annonce la plus surprenante de la conférence ? Probablement l’accent mis sur la “dé-construction” des stacks. Plusieurs sessions ont montré comment des entreprises simplifiaient radicalement leur infrastructure en éliminant les outils redondants, quitte à perdre quelques fonctionnalités à la marge. Moins d’outils, c’est moins de complexité et moins de coûts.

  • Y a-t-il eu des annonces sur la souveraineté des données ? Oui, c’est un thème récurrent. Les acteurs du cloud proposent maintenant des options de “confidential computing” et de gestion de clés plus avancées, mais la complexité et le surcoût restent importants. La meilleure stratégie reste de minimiser les données sensibles que l’on collecte et traite.

  • Quel est le prochain grand sujet pour 2026 ? Si l’on en croit les discussions, le sujet de la “double chaîne d’approvisionnement” (logicielle et IA) va devenir central. Comment garantir la sécurité et la traçabilité non seulement du code, mais aussi des modèles et des données qui les ont entraînés.