Tous les termes techniques expliqués simplement, avec des exemples concrets et des liens vers les sections correspondantes du site.
Mécanisme permettant au modèle de se concentrer sur les parties pertinentes de l'entrée lors du traitement. Il calcule des poids d'importance pour chaque élément en fonction de sa relation avec les autres éléments.
💡 Exemple
Dans la phrase 'Le chat mange la souris', le mécanisme d'attention permet au modèle de comprendre que 'mange' est fortement lié à 'chat' (sujet) et 'souris' (objet).
Quantization intelligente qui protège les poids importants (ceux avec fortes activations) de la compression agressive. Meilleur compromis qualité/vitesse que GPTQ sur certains modèles.
💡 Exemple
AWQ 4-bit sur Llama 2 13B conserve 99.5% de la qualité originale, contre 98% pour GPTQ, tout en restant aussi rapide.
Algorithme d'apprentissage qui propage les erreurs du modèle depuis la sortie vers les couches précédentes pour ajuster les poids du réseau neuronal.
💡 Exemple
Si le modèle prédit 'chien' au lieu de 'chat', la backpropagation calcule comment modifier les poids pour réduire cette erreur.
Modèle Transformer bidirectionnel développé par Google en 2018. Contrairement à GPT, BERT lit le texte dans les deux sens (gauche→droite et droite→gauche) simultanément.
💡 Exemple
BERT excelle dans les tâches de compréhension comme la classification de texte, l'extraction d'entités, et les questions-réponses.
Préjugés ou stéréotypes présents dans les données d'entraînement qui se retrouvent dans les prédictions du modèle. Peut concerner le genre, la race, la culture, etc.
💡 Exemple
Un modèle entraîné sur des textes associant 'médecin' à 'il' et 'infirmière' à 'elle' reproduira ces stéréotypes de genre.
Architecture de Google combinant attention locale (voisins proches), attention globale (tokens clés), et attention aléatoire pour traiter des séquences jusqu'à 8x plus longues qu'un Transformer standard.
💡 Exemple
BigBird peut analyser des documents de 4096 tokens tout en conservant les garanties théoriques d'approximation universelle des Transformers.
Partie du Transformer qui génère la sortie séquence par séquence en utilisant l'attention masquée pour ne pas 'tricher' en regardant les mots futurs.
💡 Exemple
Dans la traduction, le décodeur génère la phrase traduite mot par mot en s'appuyant sur l'encodeur et les mots déjà générés.
Représentation vectorielle dense d'un mot ou token dans un espace mathématique de haute dimension. Les mots similaires ont des embeddings proches.
💡 Exemple
'chat' et 'chien' auront des embeddings plus proches que 'chat' et 'voiture' car ils partagent des propriétés sémantiques (animaux domestiques).
Partie du Transformer qui traite l'entrée et crée une représentation contextuelle de chaque élément en utilisant le mécanisme d'attention bidirectionnelle.
💡 Exemple
Dans la traduction, l'encodeur lit la phrase source et crée une représentation enrichie de chaque mot avec son contexte.
Processus d'ajustement d'un modèle pré-entraîné sur des données spécifiques à une tâche particulière. Beaucoup plus rapide et économique que l'entraînement from scratch.
💡 Exemple
Prendre GPT-3 pré-entraîné et l'affiner sur des conversations pour créer ChatGPT.
Algorithme optimisé de calcul de l'attention qui réduit les accès mémoire en fusionnant les opérations. Accélère l'entraînement et l'inférence de 2-4x sans perte de précision.
💡 Exemple
Flash Attention 2 permet d'entraîner GPT-3 175B 2.4x plus vite en réduisant les transferts entre mémoire GPU (HBM) et registres (SRAM).
Méthode de quantization post-entraînement optimisée pour GPU NVIDIA. Utilise une calibration sur un petit dataset pour minimiser l'erreur de quantization, idéale pour l'inférence rapide.
💡 Exemple
GPTQ peut compresser Llama 2 70B de 140 Go à 35 Go (4-bit) avec moins de 1% de perte de perplexité, tout en accélérant l'inférence de 3-4x.
Format de fichier optimisé pour l'inférence CPU/GPU de modèles quantizés. Successeur de GGML, utilisé par llama.cpp pour exécuter des LLM sur ordinateurs personnels et Mac.
💡 Exemple
Un fichier GGUF Q4_K_M de Llama 2 7B (4 Go) peut tourner sur un MacBook M1 à 20 tokens/sec, rendant les LLM accessibles sans GPU.
Famille de modèles de langage développés par OpenAI, utilisant uniquement le décodeur du Transformer. GPT-4 est la version la plus avancée (2023).
💡 Exemple
ChatGPT utilise GPT-3.5 ou GPT-4 pour générer des réponses conversationnelles.
Vecteur mathématique indiquant la direction et l'ampleur de modification des poids pour réduire l'erreur du modèle.
💡 Exemple
Si l'erreur augmente quand un poids augmente, le gradient sera négatif pour indiquer qu'il faut diminuer ce poids.
Phénomène où un LLM génère des informations fausses ou inventées avec confiance, comme si elles étaient vraies.
💡 Exemple
Un LLM peut inventer des citations, des dates historiques, ou des références bibliographiques qui n'existent pas.
Paramètre de configuration défini avant l'entraînement (nombre de couches, taille des embeddings, taux d'apprentissage, etc.). À distinguer des paramètres appris automatiquement.
💡 Exemple
GPT-3 a 96 couches (hyperparamètre) et 175 milliards de paramètres appris.
Phase d'utilisation du modèle entraîné pour faire des prédictions sur de nouvelles données. Opposé à l'entraînement.
💡 Exemple
Quand vous posez une question à ChatGPT, le modèle fait de l'inférence pour générer la réponse.
Architecture hybride combinant Mamba (SSM), Transformers (attention), et MoE dans un seul modèle. Alterne entre couches Mamba pour l'efficacité et couches Transformer pour la qualité, avec MoE pour le scaling.
💡 Exemple
Jamba supporte un contexte de 256K tokens en combinant le meilleur des trois mondes : efficacité de Mamba, qualité des Transformers, et capacité de MoE.
Dans le mécanisme d'attention, vecteur associé à chaque token qui sert à calculer sa pertinence par rapport à une Query.
💡 Exemple
Pour déterminer si 'souris' est important pour comprendre 'mange', on compare la Query de 'mange' avec la Key de 'souris'.
Technique de fine-tuning efficace qui gèle les poids du modèle original et ajoute de petites matrices de rang faible. Réduit les paramètres entraînables de 10 000x tout en conservant 99% de la qualité.
💡 Exemple
Fine-tuner Llama 2 7B avec LoRA nécessite seulement 1.2 Go de VRAM au lieu de 28 Go pour le full fine-tuning, avec des performances quasi identiques.
Technique de normalisation appliquée après chaque sous-couche du Transformer pour stabiliser l'entraînement et accélérer la convergence.
💡 Exemple
Normalise les activations pour qu'elles aient une moyenne de 0 et un écart-type de 1.
Modèle de langage de grande taille (milliards de paramètres) entraîné sur d'énormes quantités de texte. Capable de comprendre et générer du langage naturel.
💡 Exemple
GPT-4, Claude, Gemini, LLaMA sont des LLM.
Type de réseau de neurones récurrent avec des mécanismes de mémoire pour gérer les dépendances à long terme. Prédécesseur des Transformers.
💡 Exemple
Les LSTM étaient utilisés pour la traduction avant l'arrivée des Transformers en 2017.
Transformer optimisé pour les longs contextes utilisant une attention 'sparse' (creuse). Combine attention locale (fenêtre glissante) et attention globale sur certains tokens clés pour réduire la complexité.
💡 Exemple
Longformer peut traiter 4096 tokens avec une complexité O(n) au lieu de O(n²), idéal pour analyser des documents longs comme des articles scientifiques.
Variante de l'attention où les tokens futurs sont masqués pour empêcher le modèle de 'tricher' en regardant la suite lors de la génération.
💡 Exemple
Quand GPT génère 'Le chat mange', il ne peut pas voir 'la souris' avant de l'avoir généré.
Mécanisme d'attention appliqué en parallèle plusieurs fois (8, 12, ou 16 'têtes') pour capturer différents types de relations simultanément.
💡 Exemple
Une tête peut se concentrer sur la syntaxe, une autre sur la sémantique, une autre sur les coréférences.
Architecture post-Transformer basée sur les State Space Models (SSM) sélectifs. Offre une complexité linéaire O(n) au lieu de quadratique O(n²), permettant de traiter des séquences très longues avec moins de mémoire et de calcul.
💡 Exemple
Mamba 2.8B paramètres surpasse des Transformers de 7B sur certaines tâches tout en étant 5x plus rapide à l'inférence, grâce à son état caché de taille fixe.
Architecture où le modèle est divisé en plusieurs 'experts' spécialisés. Pour chaque token, un routeur active seulement 1 ou 2 experts parmi tous, permettant d'avoir un modèle massif sans coût de calcul proportionnel.
💡 Exemple
Mixtral 8x7B contient 56 milliards de paramètres (8 experts × 7B) mais n'active que 13B par token, offrant la puissance d'un grand modèle avec le coût d'un petit.
Modèle de langage développé par Mistral AI utilisant l'architecture Mixture of Experts (MoE). Mixtral 8x7B active 2 experts sur 8 pour chaque token, combinant efficacité et performance.
💡 Exemple
Mixtral 8x7B surpasse GPT-3.5 sur de nombreux benchmarks tout en étant 6x plus rapide à l'inférence grâce au routage MoE.
Poids ou coefficient appris automatiquement par le modèle pendant l'entraînement. GPT-3 a 175 milliards de paramètres.
💡 Exemple
Chaque connexion entre neurones a un poids (paramètre) qui détermine l'importance de cette connexion.
Information ajoutée aux embeddings pour indiquer la position d'un token dans la séquence, car les Transformers n'ont pas de notion d'ordre intrinsèque.
💡 Exemple
Permet de distinguer 'Le chat mange la souris' de 'La souris mange le chat'.
Phase initiale d'entraînement sur d'énormes quantités de texte brut pour apprendre les patterns du langage. Très coûteux en temps et en ressources.
💡 Exemple
GPT-3 a été pré-entraîné sur 300 milliards de tokens (45 To de texte) pendant plusieurs semaines sur des milliers de GPU.
Instruction ou question donnée à un LLM pour obtenir une réponse. L'art de formuler des prompts efficaces s'appelle le 'prompt engineering'.
💡 Exemple
'Explique-moi les Transformers comme si j'avais 10 ans' est un prompt.
Combinaison de quantization 4-bit et LoRA permettant de fine-tuner des modèles massifs sur GPU grand public. Charge le modèle en 4-bit puis applique LoRA en précision normale.
💡 Exemple
QLoRA permet de fine-tuner Llama 2 70B sur une seule RTX 4090 24GB, alors que le full fine-tuning nécessiterait 8x A100 80GB.
Technique de compression réduisant la précision des poids (de 32 bits à 8 ou 4 bits) pour diminuer la taille du modèle et accélérer l'inférence.
💡 Exemple
Un modèle de 70 Go peut être réduit à 4 Go avec quantization 4-bit, avec une perte de qualité minime.
Dans le mécanisme d'attention, vecteur représentant ce qu'un token 'cherche' dans les autres tokens pour construire sa représentation contextuelle.
💡 Exemple
Pour comprendre 'mange', le modèle crée une Query qui cherche le sujet (qui mange ?) et l'objet (mange quoi ?).
Technique d'alignement où des humains classent les réponses du modèle pour lui apprendre à générer des sorties plus utiles, sûres et alignées.
💡 Exemple
ChatGPT utilise RLHF pour apprendre à refuser les demandes dangereuses et à donner des réponses utiles.
Architecture de réseau neuronal qui traite les séquences mot par mot, avec une mémoire interne. Remplacé par les Transformers pour la plupart des tâches.
💡 Exemple
Les RNN lisent 'Le chat mange' en trois étapes séquentielles : 'Le' → 'chat' → 'mange'.
Architecture hybride combinant les avantages des Transformers (parallélisation pendant l'entraînement) et des RNN (efficacité en inférence). Peut être formulé comme attention ou comme RNN selon le contexte.
💡 Exemple
Microsoft a déployé RWKV sur 1.5 milliard de machines grâce à son efficacité : parallélisation pour l'entraînement rapide, puis mode RNN pour l'inférence économe en ressources.
Mécanisme d'attention où chaque token calcule son attention par rapport à tous les autres tokens de la même séquence.
💡 Exemple
Dans 'Le chat noir dort', 'noir' peut attendre à 'chat' pour comprendre qu'il décrit l'animal.
Fonction mathématique transformant des scores bruts en probabilités (somme = 1). Utilisée dans l'attention et la génération de tokens.
💡 Exemple
Scores [2.1, 0.5, 1.3] → Probabilités [0.65, 0.13, 0.22] après softmax.
Modèle mathématique qui représente les séquences comme des systèmes dynamiques. Au lieu de stocker tous les tokens précédents, maintient un état caché de taille fixe qui se met à jour à chaque nouveau token.
💡 Exemple
Dans Mamba, le SSM permet de traiter une séquence de 100 000 tokens avec seulement 100 000 étapes au lieu de 10 milliards de comparaisons comme dans un Transformer.
Premier modèle MoE à grande échelle de Google (1.6 trillion de paramètres). Chaque token est routé vers un seul expert, simplifiant l'architecture tout en permettant un scaling massif.
💡 Exemple
Switch Transformer démontre qu'on peut créer un modèle de 1.6T paramètres qui s'entraîne plus vite qu'un modèle dense de 175B grâce au routage MoE.
Hyperparamètre contrôlant le caractère aléatoire de la génération. Temperature basse = réponses déterministes, haute = créatives mais moins cohérentes.
💡 Exemple
Temperature 0 : 'Le chat est noir'. Temperature 1.5 : 'Le félin arbore une robe d'ébène'.
Unité de base du texte pour le modèle. Peut être un mot, une partie de mot, ou un caractère selon la méthode de tokenisation.
💡 Exemple
'incroyable' peut être divisé en 2 tokens : 'in' + 'croyable'. '!' est généralement 1 token.
Processus de découpage du texte en tokens. Méthodes courantes : BPE (Byte Pair Encoding), WordPiece, SentencePiece.
💡 Exemple
GPT utilise BPE : 'Hello!' → ['Hello', '!'] (2 tokens).
Architecture de réseau neuronal introduite en 2017 dans le paper 'Attention is All You Need'. Base de tous les LLM modernes (GPT, BERT, T5, etc.).
💡 Exemple
ChatGPT, Claude, Gemini utilisent tous l'architecture Transformer.
Dans le mécanisme d'attention, vecteur contenant l'information réelle d'un token qui sera agrégée selon les poids d'attention.
💡 Exemple
Si 'chat' est important pour 'mange' (poids élevé), la Value de 'chat' contribuera fortement à la représentation de 'mange'.
Adaptation des Transformers pour le traitement d'images. Divise l'image en patches et les traite comme des tokens.
💡 Exemple
Utilisé pour la classification d'images, la détection d'objets, et l'analyse d'imagerie médicale.
Version modernisée des LSTM par leur inventeur Sepp Hochreiter. Intègre des portes exponentielles et des matrices de mémoire pour rivaliser avec les Transformers tout en conservant l'efficacité des RNN.
💡 Exemple
xLSTM démontre que les RNN ne sont pas morts : avec les bonnes améliorations, ils peuvent égaler les performances des Transformers sur certaines tâches.
Capacité d'un modèle à effectuer une tâche sans avoir été spécifiquement entraîné dessus, uniquement grâce à sa compréhension générale du langage.
💡 Exemple
GPT-3 peut traduire du français vers l'espagnol sans avoir été explicitement entraîné sur cette paire de langues.
Réponses aux questions les plus courantes avec chiffres et exemples concrets
Votre retour est précieux pour améliorer cette page. Partagez votre expérience ci-dessous.
Comment évaluez-vous cette page ?
Continuez votre apprentissage avec ces sujets liés