Architecture révolutionnaire

Qu'est-ce qu'un Transformer ?

Découvrez l'architecture qui a révolutionné l'Intelligence Artificielle en 2017 et qui alimente aujourd'hui ChatGPT, GPT-4, Claude, Gemini et tous les grands modèles de langage.

Partager :

Une analogie simple pour commencer

🧠 Avant les Transformers : les RNN

Imaginez que vous lisez un livre en ne regardant qu'un seul mot à la fois, dans l'ordre, sans jamais pouvoir revenir en arrière ou sauter des pages. Vous devez vous souvenir de tout ce que vous avez lu précédemment dans votre mémoire limitée.

C'est ainsi que fonctionnaient les RNN (Réseaux de Neurones Récurrents) : ils lisaient le texte mot par mot, séquentiellement, et avaient du mal à se souvenir des informations lointaines.

Problème : Lent (séquentiel), perte de mémoire sur les longues phrases, difficulté à capturer les relations à longue distance.

⚡ Avec les Transformers

Maintenant, imaginez que vous pouvez voir tous les mots de la page en même temps, et que votre cerveau peut instantanément identifier les relations entre n'importe quels mots, même s'ils sont très éloignés.

C'est exactement ce que font les Transformers : ils traitent tous les mots simultanément et utilisent le mécanisme d'attention pour comprendre les relations entre eux, quelle que soit leur distance.

Avantages : Rapide (parallèle), mémoire parfaite, capture toutes les relations contextuelles, scalable à des milliards de paramètres.

Comparaison visuelle

Comparaison RNN vs Transformer

À gauche : RNN traite séquentiellement. À droite : Transformer traite en parallèle avec attention globale.

RNN vs Transformer : Comparaison visuelle
Observez la différence entre le traitement séquentiel (RNN) et parallèle (Transformer)

Phrase à traiter :

Le chat mange la souris

RNN (Séquentiel)
0.0s
0
Le
1
chat
2
mange
3
la
4
souris

Séquentiel : Chaque mot doit attendre que le précédent soit traité. Comme lire un livre mot par mot, impossible de sauter ou de lire en parallèle.

Transformer (Parallèle)
0.0s
0
Le
1
chat
2
mange
3
la
4
souris

Parallèle : Tous les mots sont traités en même temps grâce au mécanisme d'attention. Comme voir toute la phrase d'un coup d'œil !

💡 Pourquoi c'est révolutionnaire ?

RNN : Doit traiter les mots un par un, dans l'ordre. Pour une phrase de 100 mots, il faut 100 étapes séquentielles. Impossible à paralléliser sur GPU.

Transformer : Traite tous les mots simultanément grâce au mécanisme d'attention. Pour 100 mots, une seule étape suffit ! C'est ce qui permet d'entraîner des modèles avec des milliards de paramètres.

Sur une phrase de 1000 mots, le Transformer est théoriquement 1000x plus rapide !

Paper fondateur

"Attention is All You Need" (2017)

En juin 2017, des chercheurs de Google Brain (Vaswani et al.) publient un paper révolutionnaire qui va changer l'histoire de l'IA. Leur message : on n'a plus besoin de récurrence ni de convolution, l'attention suffit.

Innovation #1

Self-Attention

Chaque mot peut "regarder" tous les autres mots simultanément et décider lesquels sont importants pour le comprendre.

Innovation #2

Parallélisation

Tous les mots sont traités en même temps, permettant un entraînement beaucoup plus rapide sur GPU/TPU.

Innovation #3

Multi-Head Attention

Plusieurs mécanismes d'attention en parallèle capturent différents types de relations (syntaxe, sémantique, etc.).

Les auteurs principaux

Le paper "Attention is All You Need" a été écrit par une équipe de 8 chercheurs de Google Brain et Google Research :

Ashish Vaswani(premier auteur)
Noam Shazeer
Niki Parmar
Jakob Uszkoreit
Llion Jones
Aidan N. Gomez
Łukasz Kaiser
Illia Polosukhin

Architecture complète d'un Transformer

Architecture complète d'un Transformer

Architecture originale du Transformer avec encodeur (gauche) et décodeur (droite)

L'Encodeur (Encoder)
Comprend et encode l'information d'entrée

L'encodeur transforme la séquence d'entrée (par exemple, une phrase en français) en une représentation riche et contextuelle. Il est composé de N couches identiques(généralement 6 ou 12), chacune contenant :

1

Multi-Head Self-Attention

Permet à chaque mot de "regarder" tous les autres mots de la phrase pour comprendre le contexte global.

2

Feed-Forward Network

Un réseau de neurones dense appliqué indépendamment à chaque position pour transformer les représentations.

+

Connexions résiduelles & Layer Normalization

Facilitent l'entraînement de réseaux profonds en évitant la disparition du gradient.

Le Décodeur (Decoder)
Génère la séquence de sortie mot par mot

Le décodeur génère la séquence de sortie (par exemple, la traduction en anglais) un mot à la fois, en utilisant à la fois la sortie de l'encodeur et les mots déjà générés. Il contient également N couches identiques, chacune avec :

1

Masked Multi-Head Self-Attention

Similaire à l'encodeur, mais avec un masque qui empêche de "regarder" les mots futurs (pour la génération auto-régressive).

2

Cross-Attention (Encoder-Decoder Attention)

Permet au décodeur de "regarder" la sortie de l'encodeur pour utiliser l'information de la phrase source.

3

Feed-Forward Network

Identique à celui de l'encodeur.

Les composants essentiels

Positional Encoding
Donner un sens de l'ordre aux mots

Contrairement aux RNN qui traitent les mots dans l'ordre, les Transformers voient tous les mots simultanément. Pour qu'ils comprennent l'ordre des mots, on ajoute un encodage positionnel à chaque mot.

C'est comme numéroter les pages d'un livre : même si vous les mélangez, les numéros vous permettent de retrouver l'ordre original.

Embeddings
Transformer les mots en vecteurs

Chaque mot est d'abord converti en un vecteur de nombres(typiquement 512 ou 768 dimensions) qui capture son sens sémantique.

Des mots similaires (comme "chat" et "chaton") auront des vecteurs proches dans l'espace vectoriel.

Layer Normalization
Stabiliser l'entraînement

Normalise les activations de chaque couche pour maintenir des valeurs stables et faciliter l'entraînement de réseaux très profonds.

C'est comme ajuster le volume de chaque instrument dans un orchestre pour qu'aucun ne domine les autres.

Residual Connections
Faciliter le flux d'information

Des "raccourcis" qui permettent à l'information de passer directement d'une couche à une autre, évitant le problème de la disparition du gradient.

Formule : Output = LayerNorm(Input + Sublayer(Input))

Visualiseur interactif : Positional Encoding

Explorez comment les positions sont encodées avec des fonctions sinusoïdales. Ajustez les paramètres pour comprendre visuellement la formule mathématique.

🎬Animation de Transformation
Découvrez étape par étape comment un Transformer transforme une phrase en données qu'il peut comprendre
Étape 1/5Token d'entrée
0%

La phrase complète est découpée en mots (tokens). Chaque mot reçoit un numéro de position.

Phrase d'entrée découpée en tokens
Leposition 0
chatposition 1
mangeposition 2
laposition 3
sourisposition 4
5 mots = 5 tokens, chacun avec sa position (0 à 4)
💡 Pourquoi les positions sont importantes ? Sans elles, le modèle ne saurait pas que "Le chat mange la souris" est différent de "La souris mange le chat" ! L'ordre des mots change complètement le sens.

💡 Pourquoi cette transformation ?

Les Transformers ont besoin de deux informations : le sens du mot (embedding) et sa position dans la phrase (positional encoding). En additionnant ces deux vecteurs, on obtient une représentation riche qui permet au modèle de comprendre à la fois le contexte sémantique et l'ordre des mots. Par exemple, "Le chat mange la souris" a un sens différent de "La souris mange le chat" !

📊Visualiseur de Positional Encoding
Explorez comment les positions sont encodées avec des fonctions sinusoïdales

Position du token dans la séquence (mise en surbrillance dans la heatmap)

Taille du vecteur d'embedding

Nombre de positions à visualiser

Comparez deux positions côte à côte

Formule du Positional Encoding :

PE(pos, 2i) = sin(pos / 10000^(2i/d_model))

PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

Les dimensions paires utilisent sin, les impaires utilisent cos. Les fréquences diminuent exponentiellement avec la dimension.

Valeurs de PE pour la position 10 à travers toutes les dimensions

0102030405060708090100110120Dimension (i)−1.0−0.8−0.6−0.4−0.20.00.20.40.60.81.0PE valuesin(pos/10000^(2i/d))cos(pos/10000^(2i/d))

• Les courbes bleues (sin) et violettes (cos) oscillent entre -1 et 1

• Les dimensions basses (à gauche) oscillent rapidement, les hautes (à droite) lentement

• Cette variation de fréquence permet au modèle de distinguer les positions proches et lointaines

💡 Pourquoi sin/cos ?

Les fonctions sinusoïdales permettent au modèle d'apprendre facilement les positions relatives : PE(pos+k) peut être exprimé comme une combinaison linéaire de PE(pos), facilitant la généralisation à des séquences plus longues.

🎯 Fréquences multiples

Chaque dimension encode la position à une fréquence différente. Les basses fréquences capturent les positions globales (début/milieu/fin), les hautes fréquences distinguent les positions adjacentes.

Les variantes modernes

Depuis 2017, de nombreuses variantes du Transformer original ont été développées pour différents cas d'usage. Voici les plus importantes :

Encoder-only
BERT
Bidirectional Encoder Representations from Transformers

Utilise uniquement l'encodeur. Excellent pour comprendre le texte (classification, question-réponse, analyse de sentiment).

Exemples : BERT, RoBERTa, ALBERT, DistilBERT

Decoder-only
GPT
Generative Pre-trained Transformer

Utilise uniquement le décodeur. Excellent pour générer du texte (rédaction, code, conversation).

Exemples : GPT-2, GPT-3, GPT-4, LLaMA, Mistral, Claude

Encoder-Decoder
T5 / BART
Architecture complète

Utilise encodeur + décodeur. Idéal pour les tâches de transformation (traduction, résumé, paraphrase).

Exemples : T5, BART, mT5, mBART

Pourquoi les Transformers sont révolutionnaires ?

Parallélisation

Entraînement 10-100x plus rapide que les RNN grâce au traitement parallèle sur GPU/TPU

Scalabilité

Peut être agrandi à des milliards de paramètres (GPT-4 : ~1.76 trillion)

Contexte global

Capture les relations à longue distance sans perte d'information

Polyvalence

Fonctionne pour le texte, les images, l'audio, la vidéo, le code, etc.

Question 1 / 4Score : 0 / 0
Qu'est-ce qu'un Transformer ?
Testez vos connaissances sur l'architecture Transformer

Quelle est la principale innovation introduite par les Transformers ?

Quiz Vrai ou Faux

Validez votre compréhension des concepts clés avec ce format simple et pédagogique

Question 1 / 5Score : 0 / 0
Vrai ou Faux : Les Transformers
Déterminez si chaque affirmation est vraie ou fausse

Les Transformers ont été inventés par Google en 2017.

Prêt à plonger dans le cœur des Transformers ?

Maintenant que vous comprenez l'architecture globale, découvrez en détail le mécanisme d'attention qui rend tout cela possible.

Soyez le premier à donner votre avis !

Votre retour est précieux pour améliorer cette page. Partagez votre expérience ci-dessous.

Votre avis compte ! 💡
Aidez-nous à améliorer cette page en partageant votre expérience. Votre retour est précieux pour rendre le contenu encore plus clair et utile.

Comment évaluez-vous cette page ?

Site pédagogique sur les Transformers et l'Intelligence Artificielle

Créé pour rendre l'IA accessible à tous 🚀

🍪 Gestion des cookies
Nous utilisons des cookies pour améliorer votre expérience de navigation, analyser l'utilisation du site et vous proposer des contenus personnalisés. Vous pouvez accepter tous les cookies, les refuser ou personnaliser vos préférences.