Objectifs
- Comprendre ce qu’est un “token” et son importance pour les LLM.
- Visualiser l’architecture simplifiée d’un Transformer, le cœur des LLM.
- Découvrir les différentes phases d’entraînement d’un LLM.
1. Tokens : Le Langage des LLM
Les LLM ne travaillent pas directement avec des mots. Ils décomposent le texte en unités plus petites appelées tokens. Un token peut être un mot entier, une partie de mot, un caractère de ponctuation, ou même un espace.
Pourquoi des tokens ?
- Gestion des mots rares : Permet de représenter des mots complexes ou inconnus en les décomposant en sous-unités plus fréquentes.
- Réduction de la complexité : Le vocabulaire des tokens est plus gérable que le vocabulaire de tous les mots possibles.
- Encodage numérique : Chaque token est converti en un identifiant numérique, puis en un vecteur (embedding) que le modèle peut traiter mathématiquement.
Exemple de tokenisation :
- Phrase : “Développement logiciel”
- Tokens possibles : [“Développe”, “ment”, ” logiciel”]
2. Architecture : Le Transformeur (simplifié)
L’architecture Transformer, introduite par Google en 2017, est le fondement de la plupart des LLM modernes. Son innovation majeure est le mécanisme d’attention, qui permet au modèle de peser l’importance des différents mots dans une phrase pour comprendre leur contexte.
Composants Clés (à très haut niveau) :
- Embeddings : Convertissent les tokens numériques en vecteurs (des listes de nombres) qui capturent une signification sémantique. Les mots similaires ont des vecteurs proches.
- Couches d’Attention (Self-Attention) : Permettent au modèle de “voir” tous les autres tokens de la séquence d’entrée et de déterminer leur pertinence pour chaque token. Par exemple, dans “La banque est au bord de la rivière”, l’attention aide à comprendre que “banque” fait référence à un rivage et non à une institution financière.
- Réseaux Feed-Forward : Appliquent des transformations non linéaires après les couches d’attention.
- Décodeur : Les LLM orientés génération de texte sont souvent basés sur la partie “décodeur” du Transformer original, capable de générer une séquence de sortie à partir d’une séquence d’entrée.
3. Phases d’Entraînement d’un LLM
L’entraînement d’un LLM est un processus en plusieurs étapes, chacune ajoutant des capacités au modèle.
-
Pré-entraînement (Pre-training) :
- Objectif : Apprendre la grammaire, la sémantique, les faits généraux et les relations entre les mots.
- Méthode : Le modèle est exposé à d’immenses corpus de texte non étiqueté. La tâche principale est de prédire le mot masqué dans une phrase (comme un jeu de “remplir les blancs”) ou de prédire le mot suivant.
- Résultat : Un modèle de base très compétent en compréhension et génération de texte, mais pas encore optimisé pour des tâches spécifiques ou pour suivre des instructions.
-
Affinement (Fine-tuning) :
- Objectif : Adapter le modèle pré-entraîné à des tâches spécifiques ou à suivre des instructions.
- Méthode : Le modèle est entraîné sur des jeux de données plus petits et étiquetés, spécifiques aux tâches (ex: paires question/réponse, résumés, traductions).
- Résultat : Un modèle plus performant pour des cas d’usage précis.
-
Alignement par Renforcement (Reinforcement Learning from Human Feedback - RLHF) :
- Objectif : Rendre le modèle plus utile, honnête et inoffensif (Helpful, Harmless, Honest - HHH). Réduire les “hallucinations” et les biais.
- Méthode : Des évaluateurs humains classent les réponses du modèle par qualité. Ces classements sont utilisés pour entraîner un modèle de récompense, qui est ensuite utilisé pour affiner le LLM par apprentissage par renforcement.
- Résultat : Un modèle qui se comporte mieux lors de l’interaction avec les utilisateurs, en étant plus aligné avec les attentes humaines.
Bonnes pratiques
- Comprendre les limites des tokens : La taille de la “fenêtre de contexte” (combien de tokens un modèle peut traiter en une seule fois) est un facteur limitant.
- Les embeddings sont la clé : La qualité de la représentation numérique des tokens impacte directement les performances du modèle.
Pièges courants
- Interpréter le “mot suivant” comme une simple auto-complétion : C’est bien plus que cela, c’est une prédiction basée sur des milliards de patterns linguistiques.
- Croire que les LLM “comprennent” comme un humain : Ils manipulent des symboles avec une intelligence statistique impressionnante, mais sans réelle conscience ou compréhension du monde.
Exercices
-
Tokenisation manuelle :
- Prenez la phrase “L’intelligence artificielle est fascinante.”
- Comment la décomposeriez-vous en tokens si chaque token était soit un mot, soit un signe de ponctuation ?
- Comment cela pourrait changer si certains mots complexes (ex: “anticonstitutionnellement”) étaient décomposés ?
-
Impact de l’entraînement :
- Pourquoi le pré-entraînement sur un corpus général est-il nécessaire avant l’affinement pour des tâches spécifiques ?
- Quel est le rôle crucial des humains dans la phase de RLHF ?
-
(Théorique) Mécanisme d’attention :
- Dans la phrase “Le petit chat noir a sauté par-dessus la clôture.”, quels mots le mécanisme d’attention du modèle devrait-il “prêter attention” pour comprendre le sujet de l’action “sauté” ?