Mécanisme d'Attention expliqué

Wiscale France - Julien Lange

Cœur des Transformers

Le Mécanisme d'Attention

Découvrez le secret qui permet aux Transformers de comprendre le contexte et les relations entre les mots, révolutionnant ainsi le traitement du langage naturel.

Qu'est-ce que l'attention ?

L'attention est un mécanisme qui permet au modèle de se concentrer sur les parties les plus pertinentes d'une séquence lors du traitement de chaque élément. C'est comme lorsque vous lisez une phrase : votre cerveau ne traite pas tous les mots de manière égale, mais se concentre sur ceux qui sont importants pour comprendre le sens.

Dans les Transformers, chaque mot peut "regarder" tous les autres mots de la phrase et décider lesquels sont importants pour le comprendre. Ce processus s'appelle Self-Attention (auto-attention).

Par exemple, dans la phrase "Le robot a pris la banane car il avait faim", le mot "il" doit comprendre qu'il fait référence à "robot" et non à "banane". L'attention permet au modèle de créer ce lien automatiquement.

Vision globale

Chaque mot "voit" tous les autres mots simultanément

Connexions pondérées

Des scores d'attention déterminent l'importance de chaque relation

Apprentissage automatique

Le modèle apprend quelles relations sont importantes

Comment fonctionne la Self-Attention ?

1Représentations vectorielles : Query, Key, Value

Chaque mot est transformé en trois vecteurs différents

Pour chaque mot de la phrase, le modèle crée trois représentations vectorielles :

Query (Q)

"Qu'est-ce que je cherche ?" - La requête que le mot pose aux autres mots

Key (K)

"Voici ce que je suis" - L'identité du mot pour être trouvé par les autres

Value (V)

"Voici l'information que je contiens" - Le contenu sémantique du mot

Ces trois vecteurs sont obtenus en multipliant l'embedding du mot par trois matrices de poids différentes (WQ, WK, WV), apprises pendant l'entraînement.

2Calcul des scores d'attention

Mesurer la similarité entre les mots

Pour chaque paire de mots, on calcule un score d'attention en faisant le produit scalaire entre la Query du premier mot et la Key du second mot :

Score(mot_i, mot_j) = Q_i · K_j / √d_k

Le score est divisé par √d_k (racine carrée de la dimension des vecteurs) pour stabiliser les gradients pendant l'entraînement. Un score élevé signifie que les deux mots sont fortement liés.

3Normalisation avec Softmax

Convertir les scores en probabilités

Les scores bruts sont passés dans une fonction Softmax qui les transforme en probabilités (valeurs entre 0 et 1 dont la somme vaut 1) :

Attention_weights = Softmax(Scores)

Cela permet d'interpréter les scores comme des "poids d'attention" : quelle proportion d'attention chaque mot doit recevoir.

4Agrégation pondérée des Values

Combiner les informations selon leur importance

Enfin, on calcule une somme pondérée des Values de tous les mots, en utilisant les poids d'attention comme coefficients :

Output = Σ (Attention_weights × V)

Le résultat est une nouvelle représentation du mot qui intègre les informations contextuelles des autres mots, pondérées par leur pertinence.

Schémas explicatifs

Schéma du mécanisme Self-Attention

Schéma du Multi-Head Attention

Le Multi-Head Attention applique plusieurs mécanismes d'attention en parallèle, permettant au modèle de capturer différents types de relations simultanément.

Multi-Head Attention

Au lieu d'utiliser un seul mécanisme d'attention, les Transformers en utilisent plusieurs en parallèle (typiquement 8 ou 16 "têtes"). Chaque tête apprend à détecter des patterns différents.

Pourquoi plusieurs têtes ?

Diversité des relations : Une tête peut se concentrer sur les relations syntaxiques (sujet-verbe), une autre sur les relations sémantiques (synonymes), etc.

Robustesse : Si une tête fait une erreur, les autres peuvent compenser.

Expressivité : Le modèle peut capturer des patterns complexes et nuancés que ne pourrait pas détecter une seule tête.

Comment ça fonctionne ?

1. Division : Les vecteurs Q, K, V sont divisés en h parties (h = nombre de têtes).

2. Attention parallèle : Chaque tête calcule son propre mécanisme d'attention indépendamment.

3. Concaténation : Les sorties de toutes les têtes sont concaténées et projetées pour former le résultat final.

Multi-Head Attention Interactive

Visualisez comment chaque "tête" d'attention se spécialise dans un type de relation différent

Phrase analysée :

Le chat noir mange la souris grise

Sélectionnez les têtes d'attention à visualiser :

Têtes actives :

Tête 1Relations syntaxiques

Capture les relations sujet-verbe et la structure grammaticale

Tête 2Relations sémantiques

Identifie les mots liés par le sens (synonymes, contexte)

Tête 3Coréférences

Relie les pronoms à leurs référents (il → chat)

Tête 4Relations à longue distance

Connecte des mots éloignés dans la phrase

💡 En termes simples :

Au lieu d'avoir une seule "vue" de la phrase, le Multi-Head Attention utilise plusieurs "têtes" qui regardent la phrase sous différents angles. C'est comme avoir plusieurs experts qui analysent le même texte : un grammairien, un spécialiste du sens, un expert en pronoms, etc. Chaque tête se spécialise et ensemble, elles donnent une compréhension complète !

Démo interactive

🎮 Visualisez l'attention en action !

Maintenant que vous comprenez la théorie, expérimentez par vous-même ! Saisissez une phrase et observez comment les mots se connectent entre eux grâce au mécanisme d'attention.

Essayez par vous-même !

Saisissez une phrase pour visualiser comment le mécanisme d'attention connecte les mots entre eux

Exemples :

Visualisation interactive

Cliquez sur un mot pour voir à quels autres mots il "prête attention"

Cliquez sur un mot pour voir ses connexions d'attention

Matrice d'attention (Heatmap)

Visualisation complète de tous les scores d'attention entre chaque paire de mots

robot

pris

banane

car

avait

faim

robot

pris

banane

car

avait

faim

Faible

Fort

🧠 Comment ça marche ?

Cette démonstration simule le mécanisme d'attention d'un Transformer de manière simplifiée. Dans un vrai modèle, les scores d'attention sont calculés à partir de représentations vectorielles apprises (Query, Key, Value).

Observations typiques :

Les mots s'attendent fortement à eux-mêmes (diagonale de la matrice)
Les pronoms (il, elle) créent des liens forts avec les noms qui les précèdent
Les verbes se connectent aux sujets de la phrase
Les mots adjacents ont généralement des scores d'attention modérés

Note : Cette simulation utilise des règles heuristiques simples. Un vrai Transformer apprend ces patterns automatiquement à partir de millions d'exemples.

🎮 Attention Mechanism Playground

Expérimentez avec le mécanisme d'attention en temps réel

Entrez une phrase (max 10 mots)

Exemples :Le chat mange la sourisLa femme regarde le tableauUn enfant joue dans le jardinLe professeur explique la leçon

Température : 1.00

Concentrée (0.1)Diffuse (3.0)

Matrice d'attention (Self-Attention)

	Le	chat	mange	la	souris
Le	62%	23%	5%	5%	5%
chat	19%	53%	19%	4%	4%
mange	3%	15%	41%	15%	25%
la	4%	4%	19%	53%	19%
souris	4%	4%	28%	17%	47%

Légende :

Faible

Moyen

Fort

💡 Comment lire cette matrice ?

• Lignes : Le mot qui "observe" (Query)
• Colonnes : Les mots observés (Keys)
• Valeurs : Pourcentage d'attention accordé
• Diagonale : Self-attention (un mot se regarde lui-même)

Note : Cette visualisation utilise des heuristiques simplifiées à des fins pédagogiques. Un vrai Transformer apprend ces poids d'attention pendant l'entraînement.

Pourquoi l'attention est révolutionnaire ?

Parallélisation

Contrairement aux RNN qui traitent les mots séquentiellement, l'attention permet de traiter tous les mots simultanément, accélérant considérablement l'entraînement.

Mémoire à long terme

L'attention peut connecter des mots très éloignés dans la phrase sans perte d'information, résolvant le problème de la disparition du gradient des RNN.

Interprétabilité

Les poids d'attention peuvent être visualisés pour comprendre quelles relations le modèle a apprises, offrant une fenêtre sur son raisonnement.

Question 1 / 4Score : 0 / 0

Mécanisme d'attention

Testez vos connaissances sur le mécanisme d'attention

Que représentent les Query, Key et Value dans le mécanisme d'attention ?

Quiz Vrai ou Faux

Vérifiez votre compréhension du mécanisme d'attention

Question 1 / 5Score : 0 / 0

Vrai ou Faux : Le Mécanisme d'Attention

Déterminez si chaque affirmation est vraie ou fausse

Dans le mécanisme d'attention, Q (Query), K (Key) et V (Value) sont trois matrices différentes calculées à partir du même input.

Quiz Glisser-Déposer

Ordonnez les étapes du traitement dans un Transformer

Question 1 / 1Score : 0 / 0

Ordonnez les étapes

Glissez les éléments pour les mettre dans le bon ordre

Ordonnez le traitement d'un token à travers une couche Transformer

💡 Indice : Attention d'abord, puis Feed-Forward. N'oubliez pas les connexions résiduelles entre chaque bloc.

Glissez les éléments pour les ordonner correctement, ou utilisez les boutons ⬆️ ⬇️

14. Feed-Forward Network (2 couches linéaires + ReLU)

26. Sortie vers la couche suivante

33. Add & Norm (résiduelle + normalisation)

41. Input Embedding + Positional Encoding

52. Multi-Head Self-Attention

65. Add & Norm (résiduelle + normalisation)

Quiz de Correspondance

Associez chaque composant de l'attention à son rôle

Question 1 / 1Score : 0 / 0

Associez les concepts

Reliez chaque terme à sa définition

Associez chaque composant de l'attention à son rôle

Cliquez sur un concept puis sur sa définition pour les associer

CONCEPTS

DÉFINITIONS

0 / 4 associations réalisées

Soyez le premier à donner votre avis !

Votre retour est précieux pour améliorer cette page. Partagez votre expérience ci-dessous.

Votre avis compte ! 💡

Aidez-nous à améliorer cette page en partageant votre expérience. Votre retour est précieux pour rendre le contenu encore plus clair et utile.

Comment évaluez-vous cette page ?

Pages connexes

Continuez votre apprentissage avec ces sujets liés

Fondamentaux

Qu'est-ce qu'un Transformer ?

Comprenez l'architecture globale des Transformers et leur fonctionnement.

Fondamentaux

Embeddings Expliqués

Découvrez comment les mots sont transformés en vecteurs mathématiques.

Applications

Vision Transformers

Voyez comment l'attention est appliquée aux images avec les Vision Transformers.

Fondamentaux

Entraînement

Apprenez comment entraîner efficacement des modèles Transformers.

🍪 Gestion des cookies

Nous utilisons des cookies pour améliorer votre expérience de navigation, analyser l'utilisation du site et vous proposer des contenus personnalisés. Vous pouvez accepter tous les cookies, les refuser ou personnaliser vos préférences.