Cœur des Transformers

Le Mécanisme d'Attention

Découvrez le secret qui permet aux Transformers de comprendre le contexte et les relations entre les mots, révolutionnant ainsi le traitement du langage naturel.

Partager :

Qu'est-ce que l'attention ?

L'attention est un mécanisme qui permet au modèle de se concentrer sur les parties les plus pertinentes d'une séquence lors du traitement de chaque élément. C'est comme lorsque vous lisez une phrase : votre cerveau ne traite pas tous les mots de manière égale, mais se concentre sur ceux qui sont importants pour comprendre le sens.

Dans les Transformers, chaque mot peut "regarder" tous les autres mots de la phrase et décider lesquels sont importants pour le comprendre. Ce processus s'appelle Self-Attention (auto-attention).

Par exemple, dans la phrase "Le robot a pris la banane car il avait faim", le mot "il" doit comprendre qu'il fait référence à "robot" et non à "banane". L'attention permet au modèle de créer ce lien automatiquement.

Vision globale

Chaque mot "voit" tous les autres mots simultanément

Connexions pondérées

Des scores d'attention déterminent l'importance de chaque relation

Apprentissage automatique

Le modèle apprend quelles relations sont importantes

Comment fonctionne la Self-Attention ?

1Représentations vectorielles : Query, Key, Value
Chaque mot est transformé en trois vecteurs différents

Pour chaque mot de la phrase, le modèle crée trois représentations vectorielles :

Query (Q)

"Qu'est-ce que je cherche ?" - La requête que le mot pose aux autres mots

Key (K)

"Voici ce que je suis" - L'identité du mot pour être trouvé par les autres

Value (V)

"Voici l'information que je contiens" - Le contenu sémantique du mot

Ces trois vecteurs sont obtenus en multipliant l'embedding du mot par trois matrices de poids différentes (WQ, WK, WV), apprises pendant l'entraînement.

2Calcul des scores d'attention
Mesurer la similarité entre les mots

Pour chaque paire de mots, on calcule un score d'attention en faisant le produit scalaire entre la Query du premier mot et la Key du second mot :

Score(mot_i, mot_j) = Q_i · K_j / √d_k

Le score est divisé par √d_k (racine carrée de la dimension des vecteurs) pour stabiliser les gradients pendant l'entraînement. Un score élevé signifie que les deux mots sont fortement liés.

3Normalisation avec Softmax
Convertir les scores en probabilités

Les scores bruts sont passés dans une fonction Softmax qui les transforme en probabilités (valeurs entre 0 et 1 dont la somme vaut 1) :

Attention_weights = Softmax(Scores)

Cela permet d'interpréter les scores comme des "poids d'attention" : quelle proportion d'attention chaque mot doit recevoir.

4Agrégation pondérée des Values
Combiner les informations selon leur importance

Enfin, on calcule une somme pondérée des Values de tous les mots, en utilisant les poids d'attention comme coefficients :

Output = Σ (Attention_weights × V)

Le résultat est une nouvelle représentation du mot qui intègre les informations contextuelles des autres mots, pondérées par leur pertinence.

Schémas explicatifs

Schéma du mécanisme Self-Attention

Mécanisme Self-Attention

Schéma du Multi-Head Attention

Multi-Head Attention

Le Multi-Head Attention applique plusieurs mécanismes d'attention en parallèle, permettant au modèle de capturer différents types de relations simultanément.

Multi-Head Attention

Au lieu d'utiliser un seul mécanisme d'attention, les Transformers en utilisent plusieurs en parallèle (typiquement 8 ou 16 "têtes"). Chaque tête apprend à détecter des patterns différents.

Pourquoi plusieurs têtes ?

Diversité des relations : Une tête peut se concentrer sur les relations syntaxiques (sujet-verbe), une autre sur les relations sémantiques (synonymes), etc.

Robustesse : Si une tête fait une erreur, les autres peuvent compenser.

Expressivité : Le modèle peut capturer des patterns complexes et nuancés que ne pourrait pas détecter une seule tête.

Comment ça fonctionne ?

1. Division : Les vecteurs Q, K, V sont divisés en h parties (h = nombre de têtes).

2. Attention parallèle : Chaque tête calcule son propre mécanisme d'attention indépendamment.

3. Concaténation : Les sorties de toutes les têtes sont concaténées et projetées pour former le résultat final.

Multi-Head Attention Interactive
Visualisez comment chaque "tête" d'attention se spécialise dans un type de relation différent

Phrase analysée :

Le chat noir mange la souris grise

Sélectionnez les têtes d'attention à visualiser :

Le0chat1noir2mange3la4souris5grise6

Têtes actives :

Tête 1Relations syntaxiques

Capture les relations sujet-verbe et la structure grammaticale

Tête 2Relations sémantiques

Identifie les mots liés par le sens (synonymes, contexte)

Tête 3Coréférences

Relie les pronoms à leurs référents (il → chat)

Tête 4Relations à longue distance

Connecte des mots éloignés dans la phrase

💡 En termes simples :

Au lieu d'avoir une seule "vue" de la phrase, le Multi-Head Attention utilise plusieurs "têtes" qui regardent la phrase sous différents angles. C'est comme avoir plusieurs experts qui analysent le même texte : un grammairien, un spécialiste du sens, un expert en pronoms, etc. Chaque tête se spécialise et ensemble, elles donnent une compréhension complète !

Démo interactive

🎮 Visualisez l'attention en action !

Maintenant que vous comprenez la théorie, expérimentez par vous-même ! Saisissez une phrase et observez comment les mots se connectent entre eux grâce au mécanisme d'attention.

Essayez par vous-même !
Saisissez une phrase pour visualiser comment le mécanisme d'attention connecte les mots entre eux
Exemples :
Visualisation interactive
Cliquez sur un mot pour voir à quels autres mots il "prête attention"

Cliquez sur un mot pour voir ses connexions d'attention

Matrice d'attention (Heatmap)
Visualisation complète de tous les scores d'attention entre chaque paire de mots
Le
robot
a
pris
la
banane
car
il
avait
faim
Le
95
65
25
14
12
10
8
6
5
5
robot
45
95
45
25
14
12
10
8
6
5
a
55
65
95
45
25
40
12
10
8
6
pris
45
55
45
95
45
50
14
12
10
8
la
65
70
25
45
95
65
25
14
12
10
banane
10
12
14
25
45
95
45
25
14
12
car
8
10
12
14
25
60
95
60
25
14
il
50
55
10
12
14
75
45
95
45
25
avait
5
6
8
10
12
45
25
45
95
45
faim
5
5
6
8
10
12
14
25
45
95
Faible
Fort
🧠 Comment ça marche ?

Cette démonstration simule le mécanisme d'attention d'un Transformer de manière simplifiée. Dans un vrai modèle, les scores d'attention sont calculés à partir de représentations vectorielles apprises (Query, Key, Value).

Observations typiques :

  • Les mots s'attendent fortement à eux-mêmes (diagonale de la matrice)
  • Les pronoms (il, elle) créent des liens forts avec les noms qui les précèdent
  • Les verbes se connectent aux sujets de la phrase
  • Les mots adjacents ont généralement des scores d'attention modérés

Note : Cette simulation utilise des règles heuristiques simples. Un vrai Transformer apprend ces patterns automatiquement à partir de millions d'exemples.

🎮 Attention Mechanism Playground
Expérimentez avec le mécanisme d'attention en temps réel
Exemples :Le chat mange la sourisLa femme regarde le tableauUn enfant joue dans le jardinLe professeur explique la leçon
Concentrée (0.1)Diffuse (3.0)

Matrice d'attention (Self-Attention)

Lechatmangelasouris
Le
62%
23%
5%
5%
5%
chat
19%
53%
19%
4%
4%
mange
3%
15%
41%
15%
25%
la
4%
4%
19%
53%
19%
souris
4%
4%
28%
17%
47%
Légende :
Faible
Moyen
Fort

💡 Comment lire cette matrice ?

  • Lignes : Le mot qui "observe" (Query)
  • Colonnes : Les mots observés (Keys)
  • Valeurs : Pourcentage d'attention accordé
  • Diagonale : Self-attention (un mot se regarde lui-même)

Note : Cette visualisation utilise des heuristiques simplifiées à des fins pédagogiques. Un vrai Transformer apprend ces poids d'attention pendant l'entraînement.

Pourquoi l'attention est révolutionnaire ?

Parallélisation

Contrairement aux RNN qui traitent les mots séquentiellement, l'attention permet de traiter tous les mots simultanément, accélérant considérablement l'entraînement.

Mémoire à long terme

L'attention peut connecter des mots très éloignés dans la phrase sans perte d'information, résolvant le problème de la disparition du gradient des RNN.

Interprétabilité

Les poids d'attention peuvent être visualisés pour comprendre quelles relations le modèle a apprises, offrant une fenêtre sur son raisonnement.

Question 1 / 4Score : 0 / 0
Mécanisme d'attention
Testez vos connaissances sur le mécanisme d'attention

Que représentent les Query, Key et Value dans le mécanisme d'attention ?

Quiz Vrai ou Faux

Vérifiez votre compréhension du mécanisme d'attention

Question 1 / 5Score : 0 / 0
Vrai ou Faux : Le Mécanisme d'Attention
Déterminez si chaque affirmation est vraie ou fausse

Dans le mécanisme d'attention, Q (Query), K (Key) et V (Value) sont trois matrices différentes calculées à partir du même input.

Quiz Glisser-Déposer

Ordonnez les étapes du traitement dans un Transformer

Question 1 / 1Score : 0 / 0
Ordonnez les étapes
Glissez les éléments pour les mettre dans le bon ordre

Ordonnez le traitement d'un token à travers une couche Transformer

💡 Indice : Attention d'abord, puis Feed-Forward. N'oubliez pas les connexions résiduelles entre chaque bloc.

Glissez les éléments pour les ordonner correctement, ou utilisez les boutons ⬆️ ⬇️

14. Feed-Forward Network (2 couches linéaires + ReLU)
26. Sortie vers la couche suivante
33. Add & Norm (résiduelle + normalisation)
41. Input Embedding + Positional Encoding
52. Multi-Head Self-Attention
65. Add & Norm (résiduelle + normalisation)

Quiz de Correspondance

Associez chaque composant de l'attention à son rôle

Question 1 / 1Score : 0 / 0
Associez les concepts
Reliez chaque terme à sa définition

Associez chaque composant de l'attention à son rôle

Cliquez sur un concept puis sur sa définition pour les associer

CONCEPTS

DÉFINITIONS

0 / 4 associations réalisées
Soyez le premier à donner votre avis !

Votre retour est précieux pour améliorer cette page. Partagez votre expérience ci-dessous.

Votre avis compte ! 💡
Aidez-nous à améliorer cette page en partageant votre expérience. Votre retour est précieux pour rendre le contenu encore plus clair et utile.

Comment évaluez-vous cette page ?

Site pédagogique sur les Transformers et l'Intelligence Artificielle

Créé pour rendre l'IA accessible à tous 🚀

🍪 Gestion des cookies
Nous utilisons des cookies pour améliorer votre expérience de navigation, analyser l'utilisation du site et vous proposer des contenus personnalisés. Vous pouvez accepter tous les cookies, les refuser ou personnaliser vos préférences.