Les Transformers ont révolutionné l'IA en 2017, mais l'innovation ne s'arrête pas là. Découvrez les architectures post-Transformer qui résolvent les limites fondamentales et ouvrent de nouvelles possibilités.
Le mécanisme d'attention calcule les scores entre tous les pairs de tokens. Pour une séquence de 1000 tokens, cela fait 1 million de calculs.
Impact : Coût mémoire et calcul explosent avec la longueur du contexte.
GPT-4 : 128K tokens (~100 pages). Gemini 1.5 Pro : 1M tokens (record actuel). Mais le coût reste prohibitif.
Impact : Impossible de traiter des livres entiers, codebases massives, ou vidéos longues de manière économique.
Chaque token généré nécessite de recalculer l'attention sur tout le contexte précédent. Pas de mémoire persistante.
Impact : Latence élevée, coût GPU important pour les applications temps réel.
Pourquoi O(n²) est un problème : Si vous doublez la longueur du contexte (ex: 1000 → 2000 tokens), la mémoire et le calcul sont multipliés par 4, pas 2. Pour 10x plus de contexte, c'est 100x plus de ressources.
💡 Exemples concrets : Un article de blog ≈ 500 tokens • Un livre ≈ 100 000 tokens • Une conversation longue ≈ 10 000 tokens
Chaque mot doit être comparé avec TOUS les autres mots de la phrase (très lent pour les longs textes)
Traitement séquentiel : chaque mot est traité une seule fois, comme une chaîne de montage
Gain de vitesse
1,000×
Mamba/RWKV sont 1,000 fois plus rapides que les Transformers pour une séquence de 1,000 tokens
Transformer (O(n²)) : Comme comparer chaque personne dans une salle avec toutes les autres. Dans une salle de 100 personnes, ça fait 10 000 comparaisons !
Mamba/RWKV (O(n)) : Comme faire passer l'information de personne en personne en ligne. Dans une file de 100 personnes, ça fait seulement 100 transmissions.
C'est pourquoi Mamba et RWKV peuvent traiter des textes beaucoup plus longs (livres entiers, conversations longues) sans ralentir ni coûter une fortune en calcul !
Ces nouvelles architectures résolvent le problème fondamental de l'attention quadratique en atteignant une complexité linéaire O(n) tout en conservant (voire dépassant) les performances des Transformers.
Mamba est basé sur les State Space Models (SSM), une approche mathématique qui modélise les séquences comme des systèmes dynamiques. L'innovation clé : rendre les SSM sélectifs, c'est-à-dire capables de filtrer l'information pertinente.
Au lieu de stocker tous les tokens précédents, Mamba maintient un état caché de taille fixequi résume toute l'information passée.
Les paramètres du SSM (matrices A, B, C) sont calculés dynamiquementen fonction de l'entrée, permettant de filtrer l'information non pertinente.
Mamba peut être formulé comme une convolution, permettant un entraînement parallèle sur GPU aussi rapide que les Transformers.
Pendant l'inférence, Mamba met simplement à jour son état caché. Pas besoin de stocker tout le contexte → mémoire constante quelle que soit la longueur.
Résultats impressionnants : Mamba 2.8B paramètres surpasse Transformers 7B sur certaines tâches tout en étant 5x plus rapide à l'inférence. Paper : "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (Gu & Dao, 2023).
Appuyez sur "Lire" pour commencer la visualisation
Chaque token est transformé en vecteur numérique (embedding)
Mémoire compressée de tout ce qui a été vu jusqu'à présent
L'état caché est mis à jour avec le nouveau token (formule SSM)
Prédiction du prochain token basée sur l'état caché actuel
ht : État caché au temps t (la "mémoire")
xt : Token d'entrée au temps t
yt : Sortie au temps t
A, B, C : Matrices apprises pendant l'entraînement
Imaginez un jeu du téléphone arabe optimisé :
Au lieu de répéter tout le message à chaque personne (comme le fait un Transformer), Mamba maintient un résumé compact qui évolue au fur et à mesure.
Chaque nouveau mot met à jour ce résumé de manière intelligente, sans avoir besoin de revenir en arrière et de tout recomparer. C'est comme avoir une mémoire qui se compresse automatiquement tout en gardant l'essentiel !
Résultat : Mamba peut traiter des textes beaucoup plus longs (millions de tokens) sans exploser en mémoire ou en temps de calcul.
🐢 Transformer = Photographe minutieux
Imagine un photographe qui doit prendre une photo de groupe. Pour chaque personne, il regarde toutes les autres personnes pour décider du cadrage parfait. Avec 100 personnes, ça fait 10 000 comparaisons ! Très précis, mais lent et coûteux.
⚡ Mamba = Caméraman en mouvement
Mamba est comme un caméraman qui filme une scène en continu. Il maintient une "mémoire visuelle" de ce qu'il a déjà vu et l'ajuste au fur et à mesure. Pas besoin de tout revoir à chaque instant : il suit le fil de manière fluide et rapide.
🎯 Résultat concret :
Pour traiter un livre entier (100 000 mots), un Transformer aurait besoin de 10 milliards de comparaisons. Mamba ? Seulement 100 000 étapes. C'est 100 000 fois plus efficace !
RWKV combine le meilleur des deux mondes : la parallélisation des Transformerspendant l'entraînement et l'inférence efficace des RNN en production. Déployé sur 1.5 milliard de machines Windows pour Microsoft Copilot.
RWKV peut être reformulé pour permettre le calcul parallèle de tous les tokens sur GPU, comme un Transformer.
En production, RWKV fonctionne comme un RNN : mise à jour d'un état caché,mémoire O(1), latence minimale.
Remplace l'attention par des mécanismes de time-mixing (mélange temporel) et channel-mixing (mélange de canaux) plus efficaces.
Adoption industrielle : Microsoft a déployé RWKV sur 1.5 milliard de machines Windows pour alimenter Copilot. C'est la preuve que les architectures post-Transformer sont prêtes pour la production à grande échelle.
Sepp Hochreiter, l'inventeur des LSTM en 1997, propose xLSTM, une version moderne qui rivalise avec les Transformers. Deux innovations majeures : LSTM exponentielet mémoire matricielle.
Utilise des portes exponentielles au lieu de sigmoïdes, permettant une meilleure gestion de la mémoire à long terme.
Remplace l'état caché scalaire par une matrice, augmentant drastiquement la capacité de stockage d'information.
Symbolique : Le retour de Hochreiter avec xLSTM montre que les RNN ne sont pas morts. Avec les bonnes innovations, ils peuvent rivaliser avec les Transformers tout en conservant leurs avantages (inférence O(1), contexte illimité).
Au lieu d'activer tous les paramètres pour chaque token, MoE active seulement quelques "experts" spécialisés. Résultat : performances de modèles massifs pour un coût d'inférence réduit de 5-10x.
Mixtral 8x7B est composé de 8 experts de 7B paramètres chacun (56B total), mais seuls 2 experts sont actifs par token. Cela donne des performances équivalentes à un modèle 70B dense pour un coût d'inférence de 13B.
Pour chaque token, un réseau de routage décide quels 2 experts (parmi 8) doivent traiter ce token.
Chaque expert est un Feed-Forward Network classique. Pendant l'entraînement, ils se spécialisent naturellement (ex: expert 1 = code, expert 2 = math).
Les sorties des 2 experts actifs sont combinées avec des poidscalculés par le routeur.
Adoption massive : GPT-4, Gemini 1.5, et Claude 3 utilisent (probablement) MoE. C'est devenu le standard pour les modèles de pointe car cela permet d'atteindre des trillions de paramètres sans coût prohibitif.
💡 Plus K est petit, plus le modèle est rapide (moins d'experts actifs)
Expert Code
ActifProgrammation
Expert Texte
ActifLangage naturel
Expert Math
Mathématiques
Expert Vision
Images
Expert Audio
Son & Musique
Expert Logique
Raisonnement
2/6
Experts activés
33%
Capacité utilisée
67%
Économie de calcul
Gating Network : Un petit réseau de neurones analyse la requête et calcule un score pour chaque expert
Top-K Selection : Seuls les K experts avec les meilleurs scores sont activés (ex: K=2 pour Mixtral 8x7B)
Traitement parallèle : Les experts actifs traitent la requête en parallèle, chacun avec sa spécialité
Agrégation : Les sorties des experts sont combinées (moyenne pondérée) pour produire la réponse finale
Imaginez une équipe de spécialistes :
Au lieu d'avoir un seul expert qui doit tout savoir (comme GPT-4), MoE utilise une équipe de spécialistes (code, maths, langage, etc.).
Quand vous posez une question, un "routeur intelligent" décide quels spécialistes sont les plus pertinents et active seulement ceux-là. Les autres restent "endormis" et ne consomment pas de ressources.
Avantage : Mixtral 8x7B a 47 milliards de paramètres au total, mais n'en utilise que 13 milliards par requête (2 experts sur 8). C'est comme avoir la puissance d'un gros modèle avec la vitesse d'un petit !
🏛️ Modèle classique = Médecin généraliste seul
Un modèle dense classique (comme GPT-3) est comme un médecin généraliste qui doit traiter tous les patients lui-même. Il connaît un peu de tout, mais il est vite débordé et doit mobiliser toutes ses connaissances pour chaque cas, même les plus simples.
🏥 MoE = Hôpital avec spécialistes
Mixtral 8x7B est comme un hôpital avec 8 médecins spécialisés : cardiologue, neurologue, pédiatre, etc. Quand un patient arrive, un "médecin coordinateur" (le routeur) décide quels 2 spécialistes doivent s'occuper du cas. Les 6 autres restent disponibles pour d'autres patients.
🎯 Avantage concret :
Mixtral 8x7B a la puissance de 56 milliards de paramètres (8 experts × 7B), mais n'utilise que 13 milliards par requête (2 experts actifs). C'est comme avoir un hôpital entier pour le prix de 2 médecins !
Résultat : performances d'un modèle 70B avec la vitesse et le coût d'un modèle 13B. C'est pour ça que GPT-4, Gemini et Claude utilisent probablement cette technique.
Jamba combine Mamba (SSM), Transformers (attention), et MoE dans une seule architecture hybride. Contexte 256K tokens, performances de pointe, efficacité maximale.
Jamba alterne entre couches Mamba (pour l'efficacité) etcouches Transformer (pour la qualité). Certaines couches utilisent MoE pour augmenter la capacité sans coût excessif.
Résultat : Le meilleur des trois mondes - efficacité de Mamba, qualité des Transformers, scaling de MoE.
Optimiser l'attention pour traiter des contextes ultra-longs (100K-2M tokens) sans exploser en mémoire.
Combine attention locale (fenêtre glissante) etattention globale sur quelques tokens clés. Complexité O(n) au lieu de O(n²).
Use case : Documents longs, articles scientifiques.
Utilise un pattern d'attention sparse (local + random + global) pour réduire la complexité tout en conservant la capacité de modélisation.
Use case : Génomique, analyse de code, livres entiers.
État de l'art 2024 : Gemini 1.5 Pro atteint 2M tokens de contexte grâce à une architecture MoE optimisée. Claude 3 Opus : 200K tokens. GPT-4 Turbo : 128K tokens. La course au contexte long continue !
L'avenir n'est probablement pas "Transformers OU Mamba", mais une combinaison intelligentedes deux (comme Jamba). Chaque architecture a ses forces.
MoE permet de créer des modèles avec des milliers d'experts ultra-spécialisés. Imaginez un LLM avec un expert pour chaque domaine scientifique.
La recherche se concentre sur faire plus avec moins : moins de paramètres, moins de calcul, moins d'énergie. Les architectures O(n) comme Mamba sont l'avenir.
Validez votre compréhension des architectures post-Transformer avec ce quiz interactif
Votre retour est précieux pour améliorer cette page. Partagez votre expérience ci-dessous.
Comment évaluez-vous cette page ?
Continuez votre apprentissage avec ces sujets liés