Référence

Glossaire des Transformers

Tous les termes techniques expliqués simplement, avec des exemples concrets et des liens vers les sections correspondantes du site.

Partager :

A

Attention (Mécanisme d')

Mécanisme permettant au modèle de se concentrer sur les parties pertinentes de l'entrée lors du traitement. Il calcule des poids d'importance pour chaque élément en fonction de sa relation avec les autres éléments.

💡 Exemple

Dans la phrase 'Le chat mange la souris', le mécanisme d'attention permet au modèle de comprendre que 'mange' est fortement lié à 'chat' (sujet) et 'souris' (objet).

AWQ (Activation-aware Weight Quantization)

Quantization intelligente qui protège les poids importants (ceux avec fortes activations) de la compression agressive. Meilleur compromis qualité/vitesse que GPTQ sur certains modèles.

💡 Exemple

AWQ 4-bit sur Llama 2 13B conserve 99.5% de la qualité originale, contre 98% pour GPTQ, tout en restant aussi rapide.

Voir aussi :Construction LLM

B

Backpropagation

Algorithme d'apprentissage qui propage les erreurs du modèle depuis la sortie vers les couches précédentes pour ajuster les poids du réseau neuronal.

💡 Exemple

Si le modèle prédit 'chien' au lieu de 'chat', la backpropagation calcule comment modifier les poids pour réduire cette erreur.

BERT (Bidirectional Encoder Representations from Transformers)

Modèle Transformer bidirectionnel développé par Google en 2018. Contrairement à GPT, BERT lit le texte dans les deux sens (gauche→droite et droite→gauche) simultanément.

💡 Exemple

BERT excelle dans les tâches de compréhension comme la classification de texte, l'extraction d'entités, et les questions-réponses.

Biais (Bias)

Préjugés ou stéréotypes présents dans les données d'entraînement qui se retrouvent dans les prédictions du modèle. Peut concerner le genre, la race, la culture, etc.

💡 Exemple

Un modèle entraîné sur des textes associant 'médecin' à 'il' et 'infirmière' à 'elle' reproduira ces stéréotypes de genre.

BigBird

Architecture de Google combinant attention locale (voisins proches), attention globale (tokens clés), et attention aléatoire pour traiter des séquences jusqu'à 8x plus longues qu'un Transformer standard.

💡 Exemple

BigBird peut analyser des documents de 4096 tokens tout en conservant les garanties théoriques d'approximation universelle des Transformers.

D

Décodeur (Decoder)

Partie du Transformer qui génère la sortie séquence par séquence en utilisant l'attention masquée pour ne pas 'tricher' en regardant les mots futurs.

💡 Exemple

Dans la traduction, le décodeur génère la phrase traduite mot par mot en s'appuyant sur l'encodeur et les mots déjà générés.

E

Embedding

Représentation vectorielle dense d'un mot ou token dans un espace mathématique de haute dimension. Les mots similaires ont des embeddings proches.

💡 Exemple

'chat' et 'chien' auront des embeddings plus proches que 'chat' et 'voiture' car ils partagent des propriétés sémantiques (animaux domestiques).

Voir aussi :Construction LLM
Encodeur (Encoder)

Partie du Transformer qui traite l'entrée et crée une représentation contextuelle de chaque élément en utilisant le mécanisme d'attention bidirectionnelle.

💡 Exemple

Dans la traduction, l'encodeur lit la phrase source et crée une représentation enrichie de chaque mot avec son contexte.

F

Fine-tuning

Processus d'ajustement d'un modèle pré-entraîné sur des données spécifiques à une tâche particulière. Beaucoup plus rapide et économique que l'entraînement from scratch.

💡 Exemple

Prendre GPT-3 pré-entraîné et l'affiner sur des conversations pour créer ChatGPT.

Voir aussi :Construction LLM
Flash Attention

Algorithme optimisé de calcul de l'attention qui réduit les accès mémoire en fusionnant les opérations. Accélère l'entraînement et l'inférence de 2-4x sans perte de précision.

💡 Exemple

Flash Attention 2 permet d'entraîner GPT-3 175B 2.4x plus vite en réduisant les transferts entre mémoire GPU (HBM) et registres (SRAM).

Voir aussi :Construction LLM

G

GPTQ

Méthode de quantization post-entraînement optimisée pour GPU NVIDIA. Utilise une calibration sur un petit dataset pour minimiser l'erreur de quantization, idéale pour l'inférence rapide.

💡 Exemple

GPTQ peut compresser Llama 2 70B de 140 Go à 35 Go (4-bit) avec moins de 1% de perte de perplexité, tout en accélérant l'inférence de 3-4x.

Voir aussi :Construction LLM
GGUF (GPT-Generated Unified Format)

Format de fichier optimisé pour l'inférence CPU/GPU de modèles quantizés. Successeur de GGML, utilisé par llama.cpp pour exécuter des LLM sur ordinateurs personnels et Mac.

💡 Exemple

Un fichier GGUF Q4_K_M de Llama 2 7B (4 Go) peut tourner sur un MacBook M1 à 20 tokens/sec, rendant les LLM accessibles sans GPU.

Voir aussi :Construction LLM
GPT (Generative Pre-trained Transformer)

Famille de modèles de langage développés par OpenAI, utilisant uniquement le décodeur du Transformer. GPT-4 est la version la plus avancée (2023).

💡 Exemple

ChatGPT utilise GPT-3.5 ou GPT-4 pour générer des réponses conversationnelles.

Gradient

Vecteur mathématique indiquant la direction et l'ampleur de modification des poids pour réduire l'erreur du modèle.

💡 Exemple

Si l'erreur augmente quand un poids augmente, le gradient sera négatif pour indiquer qu'il faut diminuer ce poids.

H

Hallucination

Phénomène où un LLM génère des informations fausses ou inventées avec confiance, comme si elles étaient vraies.

💡 Exemple

Un LLM peut inventer des citations, des dates historiques, ou des références bibliographiques qui n'existent pas.

Hyperparamètre

Paramètre de configuration défini avant l'entraînement (nombre de couches, taille des embeddings, taux d'apprentissage, etc.). À distinguer des paramètres appris automatiquement.

💡 Exemple

GPT-3 a 96 couches (hyperparamètre) et 175 milliards de paramètres appris.

I

Inférence

Phase d'utilisation du modèle entraîné pour faire des prédictions sur de nouvelles données. Opposé à l'entraînement.

💡 Exemple

Quand vous posez une question à ChatGPT, le modèle fait de l'inférence pour générer la réponse.

J

Jamba

Architecture hybride combinant Mamba (SSM), Transformers (attention), et MoE dans un seul modèle. Alterne entre couches Mamba pour l'efficacité et couches Transformer pour la qualité, avec MoE pour le scaling.

💡 Exemple

Jamba supporte un contexte de 256K tokens en combinant le meilleur des trois mondes : efficacité de Mamba, qualité des Transformers, et capacité de MoE.

K

Key (Clé)

Dans le mécanisme d'attention, vecteur associé à chaque token qui sert à calculer sa pertinence par rapport à une Query.

💡 Exemple

Pour déterminer si 'souris' est important pour comprendre 'mange', on compare la Query de 'mange' avec la Key de 'souris'.

L

LoRA (Low-Rank Adaptation)

Technique de fine-tuning efficace qui gèle les poids du modèle original et ajoute de petites matrices de rang faible. Réduit les paramètres entraînables de 10 000x tout en conservant 99% de la qualité.

💡 Exemple

Fine-tuner Llama 2 7B avec LoRA nécessite seulement 1.2 Go de VRAM au lieu de 28 Go pour le full fine-tuning, avec des performances quasi identiques.

Voir aussi :Construction LLM
Layer Normalization

Technique de normalisation appliquée après chaque sous-couche du Transformer pour stabiliser l'entraînement et accélérer la convergence.

💡 Exemple

Normalise les activations pour qu'elles aient une moyenne de 0 et un écart-type de 1.

LLM (Large Language Model)

Modèle de langage de grande taille (milliards de paramètres) entraîné sur d'énormes quantités de texte. Capable de comprendre et générer du langage naturel.

💡 Exemple

GPT-4, Claude, Gemini, LLaMA sont des LLM.

LSTM (Long Short-Term Memory)

Type de réseau de neurones récurrent avec des mécanismes de mémoire pour gérer les dépendances à long terme. Prédécesseur des Transformers.

💡 Exemple

Les LSTM étaient utilisés pour la traduction avant l'arrivée des Transformers en 2017.

Voir aussi :Chronologie
Longformer

Transformer optimisé pour les longs contextes utilisant une attention 'sparse' (creuse). Combine attention locale (fenêtre glissante) et attention globale sur certains tokens clés pour réduire la complexité.

💡 Exemple

Longformer peut traiter 4096 tokens avec une complexité O(n) au lieu de O(n²), idéal pour analyser des documents longs comme des articles scientifiques.

M

Masked Attention

Variante de l'attention où les tokens futurs sont masqués pour empêcher le modèle de 'tricher' en regardant la suite lors de la génération.

💡 Exemple

Quand GPT génère 'Le chat mange', il ne peut pas voir 'la souris' avant de l'avoir généré.

Multi-Head Attention

Mécanisme d'attention appliqué en parallèle plusieurs fois (8, 12, ou 16 'têtes') pour capturer différents types de relations simultanément.

💡 Exemple

Une tête peut se concentrer sur la syntaxe, une autre sur la sémantique, une autre sur les coréférences.

Mamba

Architecture post-Transformer basée sur les State Space Models (SSM) sélectifs. Offre une complexité linéaire O(n) au lieu de quadratique O(n²), permettant de traiter des séquences très longues avec moins de mémoire et de calcul.

💡 Exemple

Mamba 2.8B paramètres surpasse des Transformers de 7B sur certaines tâches tout en étant 5x plus rapide à l'inférence, grâce à son état caché de taille fixe.

MoE (Mixture of Experts)

Architecture où le modèle est divisé en plusieurs 'experts' spécialisés. Pour chaque token, un routeur active seulement 1 ou 2 experts parmi tous, permettant d'avoir un modèle massif sans coût de calcul proportionnel.

💡 Exemple

Mixtral 8x7B contient 56 milliards de paramètres (8 experts × 7B) mais n'active que 13B par token, offrant la puissance d'un grand modèle avec le coût d'un petit.

Mixtral

Modèle de langage développé par Mistral AI utilisant l'architecture Mixture of Experts (MoE). Mixtral 8x7B active 2 experts sur 8 pour chaque token, combinant efficacité et performance.

💡 Exemple

Mixtral 8x7B surpasse GPT-3.5 sur de nombreux benchmarks tout en étant 6x plus rapide à l'inférence grâce au routage MoE.

P

Paramètre

Poids ou coefficient appris automatiquement par le modèle pendant l'entraînement. GPT-3 a 175 milliards de paramètres.

💡 Exemple

Chaque connexion entre neurones a un poids (paramètre) qui détermine l'importance de cette connexion.

Positional Encoding

Information ajoutée aux embeddings pour indiquer la position d'un token dans la séquence, car les Transformers n'ont pas de notion d'ordre intrinsèque.

💡 Exemple

Permet de distinguer 'Le chat mange la souris' de 'La souris mange le chat'.

Pré-entraînement (Pre-training)

Phase initiale d'entraînement sur d'énormes quantités de texte brut pour apprendre les patterns du langage. Très coûteux en temps et en ressources.

💡 Exemple

GPT-3 a été pré-entraîné sur 300 milliards de tokens (45 To de texte) pendant plusieurs semaines sur des milliers de GPU.

Voir aussi :Construction LLM
Prompt

Instruction ou question donnée à un LLM pour obtenir une réponse. L'art de formuler des prompts efficaces s'appelle le 'prompt engineering'.

💡 Exemple

'Explique-moi les Transformers comme si j'avais 10 ans' est un prompt.

Q

QLoRA (Quantized LoRA)

Combinaison de quantization 4-bit et LoRA permettant de fine-tuner des modèles massifs sur GPU grand public. Charge le modèle en 4-bit puis applique LoRA en précision normale.

💡 Exemple

QLoRA permet de fine-tuner Llama 2 70B sur une seule RTX 4090 24GB, alors que le full fine-tuning nécessiterait 8x A100 80GB.

Voir aussi :Construction LLM
Quantization

Technique de compression réduisant la précision des poids (de 32 bits à 8 ou 4 bits) pour diminuer la taille du modèle et accélérer l'inférence.

💡 Exemple

Un modèle de 70 Go peut être réduit à 4 Go avec quantization 4-bit, avec une perte de qualité minime.

Voir aussi :Construction LLM
Query (Requête)

Dans le mécanisme d'attention, vecteur représentant ce qu'un token 'cherche' dans les autres tokens pour construire sa représentation contextuelle.

💡 Exemple

Pour comprendre 'mange', le modèle crée une Query qui cherche le sujet (qui mange ?) et l'objet (mange quoi ?).

R

RLHF (Reinforcement Learning from Human Feedback)

Technique d'alignement où des humains classent les réponses du modèle pour lui apprendre à générer des sorties plus utiles, sûres et alignées.

💡 Exemple

ChatGPT utilise RLHF pour apprendre à refuser les demandes dangereuses et à donner des réponses utiles.

Voir aussi :Construction LLM
RNN (Recurrent Neural Network)

Architecture de réseau neuronal qui traite les séquences mot par mot, avec une mémoire interne. Remplacé par les Transformers pour la plupart des tâches.

💡 Exemple

Les RNN lisent 'Le chat mange' en trois étapes séquentielles : 'Le' → 'chat' → 'mange'.

RWKV (Receptance Weighted Key Value)

Architecture hybride combinant les avantages des Transformers (parallélisation pendant l'entraînement) et des RNN (efficacité en inférence). Peut être formulé comme attention ou comme RNN selon le contexte.

💡 Exemple

Microsoft a déployé RWKV sur 1.5 milliard de machines grâce à son efficacité : parallélisation pour l'entraînement rapide, puis mode RNN pour l'inférence économe en ressources.

S

Self-Attention

Mécanisme d'attention où chaque token calcule son attention par rapport à tous les autres tokens de la même séquence.

💡 Exemple

Dans 'Le chat noir dort', 'noir' peut attendre à 'chat' pour comprendre qu'il décrit l'animal.

Softmax

Fonction mathématique transformant des scores bruts en probabilités (somme = 1). Utilisée dans l'attention et la génération de tokens.

💡 Exemple

Scores [2.1, 0.5, 1.3] → Probabilités [0.65, 0.13, 0.22] après softmax.

SSM (State Space Model)

Modèle mathématique qui représente les séquences comme des systèmes dynamiques. Au lieu de stocker tous les tokens précédents, maintient un état caché de taille fixe qui se met à jour à chaque nouveau token.

💡 Exemple

Dans Mamba, le SSM permet de traiter une séquence de 100 000 tokens avec seulement 100 000 étapes au lieu de 10 milliards de comparaisons comme dans un Transformer.

Switch Transformer

Premier modèle MoE à grande échelle de Google (1.6 trillion de paramètres). Chaque token est routé vers un seul expert, simplifiant l'architecture tout en permettant un scaling massif.

💡 Exemple

Switch Transformer démontre qu'on peut créer un modèle de 1.6T paramètres qui s'entraîne plus vite qu'un modèle dense de 175B grâce au routage MoE.

T

Temperature

Hyperparamètre contrôlant le caractère aléatoire de la génération. Temperature basse = réponses déterministes, haute = créatives mais moins cohérentes.

💡 Exemple

Temperature 0 : 'Le chat est noir'. Temperature 1.5 : 'Le félin arbore une robe d'ébène'.

Token

Unité de base du texte pour le modèle. Peut être un mot, une partie de mot, ou un caractère selon la méthode de tokenisation.

💡 Exemple

'incroyable' peut être divisé en 2 tokens : 'in' + 'croyable'. '!' est généralement 1 token.

Voir aussi :Construction LLM
Tokenisation

Processus de découpage du texte en tokens. Méthodes courantes : BPE (Byte Pair Encoding), WordPiece, SentencePiece.

💡 Exemple

GPT utilise BPE : 'Hello!' → ['Hello', '!'] (2 tokens).

Voir aussi :Construction LLM
Transformer

Architecture de réseau neuronal introduite en 2017 dans le paper 'Attention is All You Need'. Base de tous les LLM modernes (GPT, BERT, T5, etc.).

💡 Exemple

ChatGPT, Claude, Gemini utilisent tous l'architecture Transformer.

V

Value (Valeur)

Dans le mécanisme d'attention, vecteur contenant l'information réelle d'un token qui sera agrégée selon les poids d'attention.

💡 Exemple

Si 'chat' est important pour 'mange' (poids élevé), la Value de 'chat' contribuera fortement à la représentation de 'mange'.

Vision Transformer (ViT)

Adaptation des Transformers pour le traitement d'images. Divise l'image en patches et les traite comme des tokens.

💡 Exemple

Utilisé pour la classification d'images, la détection d'objets, et l'analyse d'imagerie médicale.

Voir aussi :Applications

X

xLSTM (Extended Long Short-Term Memory)

Version modernisée des LSTM par leur inventeur Sepp Hochreiter. Intègre des portes exponentielles et des matrices de mémoire pour rivaliser avec les Transformers tout en conservant l'efficacité des RNN.

💡 Exemple

xLSTM démontre que les RNN ne sont pas morts : avec les bonnes améliorations, ils peuvent égaler les performances des Transformers sur certaines tâches.

Z

Zero-shot Learning

Capacité d'un modèle à effectuer une tâche sans avoir été spécifiquement entraîné dessus, uniquement grâce à sa compréhension générale du langage.

💡 Exemple

GPT-3 peut traduire du français vers l'espagnol sans avoir été explicitement entraîné sur cette paire de langues.

Questions fréquentes

FAQ sur les Transformers et LLM

Réponses aux questions les plus courantes avec chiffres et exemples concrets

Site pédagogique sur les Transformers et l'Intelligence Artificielle

Créé pour rendre l'IA accessible à tous 🚀

Soyez le premier à donner votre avis !

Votre retour est précieux pour améliorer cette page. Partagez votre expérience ci-dessous.

Question 1 / 3Score : 0 / 0
Glossaire
Testez vos connaissances

Qu'est-ce qu'un token ?

Votre avis compte ! 💡
Aidez-nous à améliorer cette page en partageant votre expérience. Votre retour est précieux pour rendre le contenu encore plus clair et utile.

Comment évaluez-vous cette page ?

🍪 Gestion des cookies
Nous utilisons des cookies pour améliorer votre expérience de navigation, analyser l'utilisation du site et vous proposer des contenus personnalisés. Vous pouvez accepter tous les cookies, les refuser ou personnaliser vos préférences.