← Retour au blog

Copyright, licences et IA

Lucian BLETAN

L’IA générative a ouvert une boîte de Pandore juridique. Les questions qui étaient autrefois théoriques sont maintenant des risques opérationnels quotidiens. Sur quelles données ce modèle a-t-il été entraîné ? À qui appartient le contenu qu’il génère ? Ai-je le droit de l’utiliser ? Sans devenir un expert juridique, il est essentiel d’acquérir des réflexes simples pour naviguer dans ce nouveau paysage et éviter les mauvaises surprises.

la chaîne des droits

Le droit d’auteur ne s’arrête pas aux portes de l’IA. Il se propage des données d’entraînement jusqu’au contenu final, en passant par la licence du modèle lui-même.

données d'entraînement (avec leurs licences)

modèle pré-entraîné (avec sa propre licence)

votre modèle fine-tuné

contenu généré

qui possède les droits ?

sujets à cadrer

  • Licences des données et des modèles: Vous devez connaître et respecter les licences de toutes les sources que vous utilisez, y compris les modèles pré-entraînés (ex: Llama 2, Mistral).
  • Droits sur les sorties: À qui appartient une image ou un texte généré ? La réponse varie selon les juridictions et les conditions de service de l’API que vous utilisez.
  • Obligation de citation ou de mention: Certains modèles ou jeux de données exigent que vous mentionniez la source si vous utilisez leurs sorties.
  • Gestion des demandes de retrait: Mettre en place un processus pour répondre aux demandes de suppression de contenu (“takedown notices”) si votre IA a généré un contenu qui enfreint un copyright.

pratiques essentielles

la décision d’utiliser une source de données

Chaque nouvelle source de données ou modèle doit passer par un processus de validation simple avant d’être utilisée.

oui

non

oui

non

source identifiée

licence claire ?

compatible avec l'usage ?

ne pas utiliser

ok pour usage

ajouter à l'inventaire

  • Tenir un inventaire des sources: Pour chaque jeu de données et modèle, gardez une trace de sa provenance, de sa licence et des restrictions associées.
  • Bannir les licences incompatibles: Interdire l’utilisation de données avec des licences virales (ex: AGPL) ou non-commerciales si votre produit est commercial.
  • Clause “contenu généré”: Inclure une clause dans vos conditions d’utilisation (CGU) qui clarifie la propriété et la responsabilité concernant le contenu généré par les utilisateurs via votre IA.
  • Stocker les prompts et les sorties: Pour des raisons de traçabilité et en cas de litige, conservez un enregistrement des prompts et des sorties associées à un cas d’usage.

cas particuliers à haut risque

  • Logos, personnes, œuvres récentes: Le risque de générer une image qui ressemble à une marque déposée, à une personne identifiable ou à une œuvre protégée est élevé. La prudence est maximale.
  • Contenus juridiques ou médicaux: Toute génération de texte dans ces domaines doit être considérée comme une première ébauche et obligatoirement vérifiée par un humain qualifié.
  • Données client: N’utilisez jamais les données de vos clients pour entraîner un modèle sans leur consentement explicite, éclairé et pour une finalité précise.

pièges frequents

  • Symptôme: “On a utilisé un dataset trouvé sur le web, on ne sait pas d’où il vient.”

    • Cause: Sources floues.
    • Correctif: Mettre en place un inventaire et un processus de revue obligatoire pour toute nouvelle source de données.
  • Symptôme: Une entreprise se plaint que votre IA a généré une image qui ressemble à son logo.

    • Cause: Absence de mention ou de politique de citation.
    • Correctif: Avoir une politique claire de citation si les licences des modèles ou des données l’exigent.
  • Symptôme: On découvre que l’on a entraîné un modèle commercial sur des données sous licence “non-commerciale”.

    • Cause: Mélange de licences incompatibles.
    • Correctif: Isoler les jeux de données par type de licence. Ne jamais mélanger des données aux restrictions différentes dans un même processus d’entraînement.

faq

  • À qui appartient une image générée par une IA ? C’est compliqué et ça dépend des pays. Aux États-Unis, la tendance est de dire qu’une œuvre entièrement générée par une machine sans intervention humaine créative significative ne peut pas être protégée par le droit d’auteur. En pratique, consultez les conditions de service de l’outil que vous utilisez (ex: OpenAI, Midjourney) qui précisent souvent les droits qu’ils vous accordent.

  • Puis-je utiliser n’importe quoi sur internet pour entraîner mon modèle ? Non. Le “fair use” (usage équitable) est une défense juridique complexe, pas un droit acquis. Utiliser des données sans respecter leur licence est un risque juridique important.