Découvrez le processus complet de création d'un Large Language Model, depuis la collecte des données brutes jusqu'au chatbot conversationnel utilisable par le grand public.
Créer un LLM comme GPT-4, Claude ou Gemini est un processus complexe qui nécessite des mois de travail, des milliards de données, des milliers de GPU, et des millions de dollars d'investissement.
Mais ne vous inquiétez pas ! Nous allons décomposer ce processus en 7 phases clairespour que vous compreniez exactement comment un modèle passe de "rien" à un assistant conversationnel capable de discuter naturellement.
Bon à savoir : Les étapes que nous décrivons ici correspondent au processus utilisé par OpenAI pour GPT-4, Anthropic pour Claude, et Google pour Gemini.

Vue d'ensemble du pipeline complet : de la donnée brute au chatbot
Avant de plonger dans les 7 phases, clarifions deux distinctions essentielles qui reviennent constamment dans la construction des LLM.
Objectif : Enrichir les connaissances du modèle
Données : Texte brut (articles, livres, code, Wikipedia)
Résultat : Le modèle "sait" plus de choses (nouveau domaine, nouvelle langue, données récentes)
Objectif : Modifier le comportement du modèle
Données : Paires instruction-réponse (format conversationnel)
Résultat : Le modèle "se comporte" différemment (suit les instructions, répond poliment, refuse les demandes dangereuses)
Analogie : CPT = lire des livres pour apprendre (savoir). SFT = suivre un cours pour appliquer (comportement).
Un modèle "Instruct" (ou "Chat") est un modèle qui a subi SFT + RLHF pour devenir conversationnel et suivre les instructions.
Exemple : GPT-4o, Llama 3.3 70B
❌ Complète le texte mais ne suit pas les instructions
❌ Peut générer du contenu toxique ou dangereux
Exemple : GPT-4o Turbo, Llama 3.3 70B Instruct
✅ Suit les instructions de l'utilisateur
✅ Répond de manière utile et sécurisée
✅ Refuse les demandes dangereuses ou illégales
En pratique : Quand vous utilisez ChatGPT, Claude ou Gemini, vous interagissez avec un modèle Instruct, pas avec le modèle brut.
La fondation de tout LLM : des milliards de textes
Pour qu'un LLM comprenne le langage humain, il doit d'abord "lire" une quantité astronomique de texte. Voici les sources typiques :
Milliards de pages web (Wikipedia, blogs, forums, sites d'actualités, documentation technique)
Millions de livres, articles scientifiques, brevets, documents académiques
Dépôts GitHub, Stack Overflow, documentation de programmation (pour les capacités de code)
Reddit, Twitter, forums de discussion (pour comprendre le langage conversationnel)
Nettoyage crucial : Les données brutes contiennent du spam, du contenu toxique, des doublons, des erreurs. Une étape de filtrage et de nettoyage est essentielle pour la qualité du modèle.
Exemple GPT-3 : ~570 Go de texte compressé = ~300 milliards de tokens (environ 400 milliards de mots)
Transformer le texte en nombres que le modèle peut comprendre
Avant d'entraîner le modèle, il faut convertir chaque mot (ou morceau de mot) en un nombre unique appelé token. C'est le rôle du tokenizer.
"Les Transformers sont révolutionnaires"["Les", " Transform", "ers", " sont", " révolution", "naires"][2356, 8745, 1234, 5678, 9012, 3456]Apprendre les patterns du langage sur des milliards de textes
C'est l'étape la plus longue et la plus coûteuse. Le modèle apprend à prédire le mot suivantdans une phrase en lisant des milliards d'exemples. Cette tâche simple en apparence lui permet d'acquérir une compréhension profonde du langage.
Texte d'entraînement :
"Le chat dort sur le canapé"
Le modèle voit :
"Le chat dort sur le [?]"
Il doit prédire :
Probabilités : canapé (85%), tapis (10%), lit (3%), table (2%)
Apprendre à suivre des instructions et répondre aux questions
Après le pré-entraînement, le modèle sait prédire des mots, mais il ne sait pas encore répondre à des questions ou suivre des instructions. Le fine-tuning supervisé lui apprend ce comportement avec des exemples de haute qualité.
👤 Utilisateur :
"Explique-moi ce qu'est la photosynthèse en termes simples."
🤖 Assistant (réponse idéale) :
"La photosynthèse est le processus par lequel les plantes utilisent la lumière du soleil pour transformer l'eau et le CO₂ en glucose (leur nourriture) et en oxygène. C'est comme si les plantes 'mangeaient' de la lumière !"
Beaucoup moins que le pré-entraînement : typiquement 10 000 à 100 000 exemplesde conversations de haute qualité.
Ces exemples sont souvent créés manuellement par des humains experts.
Quelques jours à quelques semaines (beaucoup plus rapide que le pré-entraînement).
Le modèle "affine" ses capacités existantes plutôt que d'apprendre from scratch.
Découvrez comment entraîner des LLM sur votre PC avec seulement 8-16 GB de VRAM grâce aux techniques révolutionnaires développées en 2023-2024.
Full Fine-tuning : Entraîne tous les paramètres (4x la mémoire)
LoRA : Entraîne seulement des adapters (économise 70-80% de VRAM)
QLoRA : LoRA + quantization INT4 (économise 85-95% de VRAM)
Entraîner tous les paramètres d'un LLM (Full Fine-tuning) nécessite une mémoire énorme :
💰 Coût prohibitif : Une A100 80GB coûte ~$15,000. Pour entraîner GPT-3, il faudrait 10+ GPU A100, soit plus de $150,000 en matériel !
Au lieu de modifier les 175 milliards de paramètres de GPT-3, LoRA ajoute de petits "adapters" (matrices de rang faible) qui ne représentent que 0.1-1% des paramètres.
Modèle original : W (matrice 1000×1000)
LoRA ajoute : ΔW = A × B
où A (1000×8) et B (8×1000)
→ Au lieu de 1M paramètres, seulement 16K paramètres à entraîner !
Cas d'usage : LoRA est parfait pour adapter un modèle à un domaine spécifique (médical, juridique, code) ou à un style d'écriture particulier.
QLoRA va encore plus loin : il quantize le modèle de base en INT4 (4 bits) tout en gardant les adapters LoRA en précision normale. Résultat : entraîner Llama 2 70B sur une seule RTX 4090 24GB !
🎯 Impact : QLoRA démocratise le fine-tuning de LLM. Des chercheurs et startups peuvent maintenant entraîner des modèles 70B sur du matériel grand public (~$2,000 au lieu de $100,000+).
La quantization permet de réduire drastiquement la taille des modèles (jusqu'à 8×) en diminuant la précision numérique. Voici un comparatif détaillé des 5 principales méthodes utilisées en 2024.
| Méthode | Bits | Vitesse | Mémoire | Qualité | GPU | CPU | Meilleur pour |
|---|---|---|---|---|---|---|---|
| GPTQ | 2-8 bits | ★★★★★ | ★★★★★ | ★★★★★ | Inférence GPU rapide | ||
| AWQ | 4 bits | ★★★★★ | ★★★★★ | ★★★★★ | Meilleure qualité 4-bit | ||
| GGUF | 2-8 bits | ★★★★★ | ★★★★★ | ★★★★★ | Exécution CPU | ||
| GGML | 4-8 bits | ★★★★★ | ★★★★★ | ★★★★★ | Projets legacy | ||
| bitsandbytes | 4-8 bits | ★★★★★ | ★★★★★ | ★★★★★ | Fine-tuning avec QLoRA |
Légende : Vitesse = rapidité d'inférence | Mémoire = économie VRAM | Qualité = préservation de la performance du modèle original
Vitesse
Économie mémoire
Qualité
→ Utilisez GPTQ ou AWQ
GPTQ pour la vitesse maximale, AWQ pour la meilleure qualité. Les deux sont excellents pour l'inférence en production.
→ Utilisez GGUF avec llama.cpp
GGUF est optimisé pour Metal et offre d'excellentes performances sur les puces Apple Silicon.
→ Utilisez bitsandbytes avec QLoRA
Intégration native avec Transformers et PEFT. Parfait pour entraîner des modèles 7B-70B sur une seule RTX 3090/4090.
→ Utilisez GGUF sur CPU
GGUF est le seul format vraiment optimisé pour CPU. Fonctionne sur n'importe quel ordinateur avec llama.cpp.
Astuce : Pour la plupart des cas d'usage en production avec GPU NVIDIA,AWQ offre le meilleur compromis qualité/vitesse en 2024. Pour CPU ou Mac,GGUF est incontournable.
| Format | Taille | VRAM requise | Compression | Perplexité (↓ mieux) |
|---|---|---|---|---|
| FP16 (original) | 13.5 GB | ~14 GB | — | 5.68 |
| GPTQ 4-bit | 3.9 GB | ~5 GB | 3.5× | 5.83 |
| AWQ 4-bit | 3.9 GB | ~5 GB | 3.5× | 5.75 (meilleur) |
| GGUF Q4_K_M | 4.1 GB | ~6 GB | 3.3× | 5.81 |
| bitsandbytes NF4 | 3.5 GB | ~5 GB | 3.9× | 5.77 |
Perplexité : Mesure de la qualité du modèle (plus bas = meilleur). Testé sur WikiText-2. Une différence de 0.1 est généralement imperceptible pour l'utilisateur final.
Conclusion : Toutes les méthodes 4-bit offrent une compression ~3.5× avec une perte de qualité minime (<3%). AWQ et bitsandbytes NF4 préservent légèrement mieux la qualité que GPTQ.
Au lieu de partir de zéro, on prend un modèle pré-entraîné (comme Llama 2) et on continue son entraînement sur des données spécialisées (médicales, juridiques, code, etc.).
Exemple : Créer un LLM médical
Continuous Pretraining
Objectif : Apprendre de nouvelles connaissances (vocabulaire, faits)
Fine-tuning
Objectif : Apprendre un nouveau comportement (suivre instructions)
Astuce : Continuous Pretraining peut être combiné avec LoRA/QLoRA pour économiser de la VRAM !
Le Self-Tuning regroupe des techniques où le modèle génère ses propres données d'entraînement, s'auto-critique, et s'améliore de manière autonome. C'est une des pistes les plus prometteuses pour dépasser les limites actuelles.
Le modèle génère ses propres instructions et réponses, puis s'entraîne dessus.
Processus :
Le modèle s'auto-critique selon des principes éthiques et améliore ses réponses.
Processus :
Le modèle joue contre lui-même pour s'améliorer (comme AlphaGo).
Applications :
Le modèle améliore itérativement ses propres réponses.
Exemple (code) :
⚠️ Limites : Le Self-Tuning peut amplifier les biais existants et générer des "hallucinations" si mal contrôlé. La supervision humaine reste importante.
🚀 Futur : Le Self-Tuning pourrait permettre aux LLM de s'améliorer continuellement sans intervention humaine, ouvrant la voie à l'AGI (Intelligence Artificielle Générale).
| Technique | VRAM (7B) | Temps | Qualité | Cas d'usage |
|---|---|---|---|---|
| Full Fine-tuning | 28 GB | Lent | ★★★★★ | Budget illimité, max qualité |
| LoRA | 8-12 GB | Moyen | ★★★★☆ | Bon compromis, GPU moyen |
| QLoRA | 4-6 GB | Rapide | ★★★★☆ | GPU grand public, optimal |
| Continuous PT | Variable | Long | ★★★★★ | Nouveau domaine/langue |
| Self-Tuning | Variable | Variable | ★★★☆☆ | Recherche, auto-amélioration |
Aligner le modèle avec les préférences humaines
Le RLHF est la technique qui a permis à ChatGPT de devenir viral. Elle consiste à faire évaluer les réponses du modèle par des humains, puis à utiliser ces évaluations pour améliorer le modèle via l'apprentissage par renforcement.
3 méthodes principales : PPO (classique, utilisé par OpenAI), DPO (moderne, utilisé par Llama/Mistral), KTO (récent, 2024).
Le Reward Model est un modèle entraîné à prédire quel texte un humain préférerait. Il sert de "juge automatique" pour évaluer les réponses du LLM.
Pour chaque prompt, le LLM génère 2 réponses (A et B).
Des évaluateurs choisissent la meilleure réponse (ex: A > B).
Le RM apprend à prédire ces préférences (score plus élevé pour A que B).
Exemple : Prompt = "Explique la gravité"
Réponse A (score RM = 8.2) : Explication claire et pédagogique
Réponse B (score RM = 3.1) : Réponse confuse et incorrecte
PPO est l'algorithme d'apprentissage par renforcement qui utilise le Reward Model pour améliorer le LLM. C'est la méthode originale du RLHF.
Le LLM génère une réponse pour un prompt.
Le Reward Model attribue un score à la réponse.
Le LLM ajuste ses paramètres pour maximiser le score (tout en restant proche du modèle SFT initial).
Astuce : PPO nécessite 4 modèles : LLM policy, LLM reference, Reward Model, Value Model. C'est pourquoi il est si gourmand en VRAM.
DPO est une innovation récente (2023) qui simplifie radicalement le RLHF en éliminant le Reward Model et PPO. Au lieu d'entraîner un RM puis d'utiliser PPO, DPO optimise directement le LLM avec les préférences humaines.
Collecter des paires (prompt, réponse préférée, réponse rejetée).
Entraîner le LLM à augmenter la probabilité de la réponse préférée et diminuer celle de la réponse rejetée.
Pas besoin de Reward Model ni de PPO. Tout se fait en un seul entraînement.
Qui utilise DPO : Meta (Llama 3.3), Mistral AI, HuggingFace (TRL library). C'est devenu la méthode standard pour les modèles open-source.
KTO (2024) est une méthode encore plus récente que DPO, inspirée par la théorie des perspectives de Kahneman et Tversky (Prix Nobel 2002). Elle modélise le fait que les humains sont plus sensibles aux pertes qu'aux gains.
Au lieu de comparer 2 réponses, on demande juste "Cette réponse est-elle bonne ?" (Oui/Non).
KTO pénalise plus fortement les mauvaises réponses qu'il ne récompense les bonnes (λ_loss > λ_gain).
Le modèle apprend à maximiser les réponses positives tout en évitant fortement les négatives.
Recherche active : KTO est une direction prometteuse pour rendre le RLHF encore plus accessible et efficace. À suivre en 2025 !
| Critère | PPO | DPO | KTO |
|---|---|---|---|
| Complexité | ❌ Très complexe | ✅ Simple | ✅ Simple |
| Modèles requis | 4 modèles | 1 modèle | 1 modèle |
| VRAM | ~80 GB | ~20 GB | ~20 GB |
| Vitesse | ❌ Lent | ✅ Rapide | ✅ Rapide |
| Qualité | ✅ Excellente | ✅ Très bonne | ❓ À confirmer |
| Données | Comparaisons (A > B) | Comparaisons (A > B) | Binaire (Oui/Non) |
| Maturité | ✅ Éprouvé (2020) | ✅ Mature (2023) | ⚠️ Récent (2024) |
| Qui l'utilise | OpenAI, Anthropic | Meta, Mistral, HF | Recherche |
| Recommandé pour | Qualité maximale | Projets open-source | Expérimentation |
Rendre le modèle rapide et accessible à des millions d'utilisateurs
Un modèle entraîné n'est pas encore prêt pour des millions d'utilisateurs. Il faut l'optimiser pour qu'il soit rapide, économique, et capable de gérer des millions de requêtes simultanées.
Réduire la précision des poids (32 bits → 8 bits) pour économiser mémoire et calcul
Créer un modèle plus petit qui imite le grand modèle (ex: DistilBERT, GPT-3.5-turbo)
Mémoriser les réponses fréquentes pour éviter de recalculer
Traiter plusieurs requêtes en parallèle pour maximiser l'utilisation GPU
Des milliers de GPU (A100, H100) répartis dans le monde entier
Distribuer les requêtes entre les serveurs pour éviter la surcharge
Surveillance en temps réel des performances et détection d'anomalies
Limiter le nombre de requêtes par utilisateur pour gérer la charge
Faire tourner un LLM comme GPT-4 coûte extrêmement cher :
Serveurs
~700 000 $ / jour
Électricité
~50 000 $ / jour
Total estimé
~250M $ / an
Du modèle brut au chatbot utilisable par tous
Le modèle est prêt, mais les utilisateurs ont besoin d'une interface simplepour l'utiliser. C'est là qu'intervient le développement de l'application conversationnelle.
Interface de conversation avec historique, formatage Markdown, code highlighting
Mémoriser la conversation pour maintenir la cohérence (fenêtre de contexte)
Afficher la réponse mot par mot en temps réel (comme ChatGPT)
Filtrer les contenus inappropriés en entrée et en sortie
Permettre au modèle d'utiliser des outils externes (calculatrice, recherche web, génération d'images)
Accepter des images, audio, vidéo en entrée (GPT-4 Vision, Gemini)
Instructions personnalisées, mémoire long terme, préférences utilisateur
Permettre aux développeurs d'intégrer le modèle dans leurs applications
Après ces 7 étapes, vous avez un LLM complet et fonctionnel comme ChatGPT, Claude ou Gemini, prêt à être utilisé par des millions de personnes dans le monde entier !
Milliards de textes du web
Mots → Nombres
Apprendre le langage
Suivre instructions
Alignement humain
Optimisation prod
Chatbot final
Explorez les autres sections pour comprendre en détail l'architecture des Transformers et le mécanisme d'attention qui rend tout cela possible.
Vérifiez votre compréhension des concepts clés avec ce quiz interactif
Vérifiez votre compréhension du pipeline de construction d'un LLM
Ordonnez les étapes de construction d'un LLM dans le bon ordre
💡 Indice : Commencez par les données, puis l'entraînement général, l'ajustement spécifique, et enfin le déploiement.
Glissez les éléments pour les ordonner correctement, ou utilisez les boutons ⬆️ ⬇️
Associez chaque phase du pipeline à son objectif
Cliquez sur un concept puis sur sa définition pour les associer
Votre retour est précieux pour améliorer cette page. Partagez votre expérience ci-dessous.
Comment évaluez-vous cette page ?
Continuez votre apprentissage avec ces sujets liés