Ressources externes

Wiscale France - Julien Lange

Ressources externes

Une sélection des meilleures ressources pour approfondir vos connaissances sur les Transformers : tutoriels, papers académiques, cours en ligne, implémentations GitHub et outils pratiques.

Tutoriels

Des tutoriels pratiques pour apprendre les Transformers pas à pas, du niveau débutant à avancé.

Hugging Face NLP Course

Cours en ligne

DébutantFrançais

Cours complet gratuit sur les Transformers avec exercices pratiques et notebooks interactifs. Couvre BERT, GPT, T5 et plus encore.

The Illustrated Transformer

Article illustré

DébutantAnglais

Explication visuelle détaillée de l'architecture Transformer avec des diagrammes animés. Parfait pour comprendre les concepts.

Transformer from Scratch (PyTorch)

Tutoriel pratique

IntermédiaireFrançais

Tutoriel complet pour implémenter un Transformer de A à Z en PyTorch. Inclut le code source commenté.

CMU Advanced NLP - Transformers

Cours vidéo

AvancéAnglais

Cours universitaire de Carnegie Mellon sur les Transformers par Graham Neubig. Niveau académique avancé.

Transformer Explainer (Interactive)

Outil interactif

IntermédiaireAnglais

Visualisation interactive du fonctionnement interne de GPT-2. Explorez chaque couche en temps réel.

Les mécanismes des Transformers (2 min d'IA)

Vidéo courte

DébutantFrançais

Vidéo courte en français expliquant les mécanismes d'attention et l'architecture Transformer de manière accessible.

Papers académiques

Les publications scientifiques fondamentales qui ont façonné le domaine des Transformers.

Attention is All You Need

Paper fondateur

Vaswani et al. (Google)2017

Le paper fondateur qui a introduit l'architecture Transformer en 2017. Incontournable pour comprendre les bases.

BERT: Pre-training of Deep Bidirectional Transformers

Modèle pré-entraîné

Devlin et al. (Google)2018

Introduction de BERT, le modèle bidirectionnel qui a révolutionné le NLP. Base de nombreux modèles actuels.

Language Models are Few-Shot Learners (GPT-3)

Modèle génératif

Brown et al. (OpenAI)2020

Paper de GPT-3 démontrant les capacités de few-shot learning des grands modèles de langage.

An Image is Worth 16x16 Words (Vision Transformer)

Vision

Dosovitskiy et al. (Google)2020

Application des Transformers à la vision par ordinateur. Remplace les CNN par des patches d'images.

LoRA: Low-Rank Adaptation of Large Language Models

Fine-tuning

Hu et al. (Microsoft)2021

Technique d'adaptation efficace des LLM avec des matrices de faible rang. Réduit drastiquement la VRAM nécessaire.

An Introduction to Transformers

Survey

Turner (Cambridge)2023

Survey complet et accessible sur les Transformers, leurs variantes et applications. Excellente ressource de synthèse.

Papers sur les architectures post-Transformer

Innovations 2023-2025

Les publications scientifiques sur les nouvelles architectures qui dépassent les limites des Transformers : Mamba, RWKV, MoE, xLSTM, et contexte long.

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Architecture post-Transformer

Gu & Dao (Carnegie Mellon)2023

Paper fondateur de Mamba par Albert Gu et Tri Dao (2023). Introduit les State Space Models sélectifs qui atteignent O(n) au lieu de O(n²).

RWKV: Reinventing RNNs for the Transformer Era

Architecture hybride

Peng et al.2023

Architecture hybride RNN-Transformer par Bo Peng. Déployée sur 1.5 milliard de machines Windows pour Microsoft Copilot.

RWKV GitHub Repository

Code source

Bo Peng2023

Implémentation officielle de RWKV avec modèles pré-entraînés (1.5B à 14B paramètres). Code open-source et documentation complète.

Switch Transformers: Scaling to Trillion Parameter Models

Mixture of Experts

Fedus et al. (Google)2021

Paper de Google sur les Mixture of Experts (MoE). Démontre comment atteindre 1 trillion de paramètres efficacement.

Mixtral of Experts (Technical Report)

Modèle MoE

Mistral AI2024

Rapport technique de Mistral AI sur Mixtral 8x7B. Architecture MoE avec 47B paramètres mais coût d'inférence de 13B.

xLSTM: Extended Long Short-Term Memory

LSTM moderne

Beck et al. (Hochreiter)2024

Retour de Sepp Hochreiter avec une version modernisée des LSTM qui rivalise avec les Transformers. Innovations : exponential gating et memory mixing.

Jamba: A Hybrid Transformer-Mamba Language Model

Architecture hybride

AI21 Labs2024

Architecture hybride combinant Mamba, Transformers et MoE par AI21 Labs. Contexte 256K tokens avec efficacité maximale.

Longformer: The Long-Document Transformer

Contexte long

Beltagy et al. (AllenAI)2020

Transformer optimisé pour les longs documents avec attention locale + globale. Contexte jusqu'à 4096 tokens.

Big Bird: Transformers for Longer Sequences

Contexte long

Zaheer et al. (Google)2020

Architecture Google avec attention sparse pour traiter des séquences jusqu'à 8x plus longues. Utilisé pour les documents longs.

Cours en ligne

Des cours complets et structurés pour maîtriser les Transformers et le NLP moderne.

Stanford CS224N: NLP with Deep Learning

Cours universitaire

AvancéAnglais

Cours complet de Stanford sur le NLP avec focus sur les Transformers. Inclut lectures, slides et devoirs.

DeepLearning.AI - NLP Specialization

Cours payant

IntermédiaireAnglais

Spécialisation Coursera sur le NLP par Andrew Ng. Couvre les Transformers, BERT, GPT et applications.

Fast.ai - Practical Deep Learning

Cours gratuit

IntermédiaireAnglais

Approche pratique du deep learning avec focus sur les applications réelles. Inclut section sur les Transformers.

Hugging Face Transformers Course

Cours gratuit

DébutantFrançais

Cours officiel Hugging Face sur l'utilisation de la bibliothèque Transformers. Très pratique et hands-on.

Implémentations GitHub

Les meilleures bibliothèques et implémentations open-source pour travailler avec les Transformers.

Hugging Face Transformers

Bibliothèque Python

140k+

Bibliothèque Python de référence pour utiliser des milliers de modèles pré-entraînés. 100k+ stars sur GitHub.

Annotated Transformer

Tutoriel code

10k+

Implémentation commentée ligne par ligne du paper original. Excellente ressource pédagogique.

nanoGPT

Implémentation simple

40k+

Implémentation minimaliste de GPT-2 par Andrej Karpathy. Code simple et éducatif pour comprendre les bases.

Transformer from Scratch

Tutoriel complet

5k+

Implémentation complète d'un Transformer en PyTorch avec explications détaillées à chaque étape.

PEFT (Parameter-Efficient Fine-Tuning)

Bibliothèque

20k+

Bibliothèque Hugging Face pour le fine-tuning efficace avec LoRA, QLoRA, Prefix Tuning, etc.

LLaMA Factory

Framework

35k+

Framework complet pour fine-tuner des LLM avec interface web. Supporte LoRA, QLoRA, GPTQ, AWQ.

Playgrounds interactifs

Testez et expérimentez avec des modèles Transformer directement dans votre navigateur.

Transformer Explainer

Visualisation

Visualisation interactive du fonctionnement de GPT-2. Explorez l'attention, les embeddings et les prédictions.

BertViz

Visualisation

Outil de visualisation des mécanismes d'attention dans BERT, GPT-2, et autres modèles Transformer.

Hugging Face Spaces

Démos en ligne

Milliers de démos interactives de modèles Transformer. Testez GPT, BERT, Stable Diffusion et plus.

OpenAI Playground

API playground

Interface officielle pour tester GPT-4, GPT-3.5 et autres modèles OpenAI avec différents paramètres.

Google AI Studio

API playground

Testez Gemini et autres modèles Google avec interface intuitive. Gratuit avec quotas généreux.

Outils et bibliothèques

Les outils essentiels pour développer, déployer et utiliser des modèles Transformer en production.

Hugging Face Hub

Plateforme

Plateforme centrale avec 500k+ modèles pré-entraînés, datasets et espaces de démo. Communauté active.

PyTorch

Framework

Framework de deep learning de référence pour la recherche. Utilisé par la majorité des chercheurs en IA.

TensorFlow

Framework

Framework de Google pour le machine learning. Excellente intégration avec TensorFlow Serving pour la production.

LangChain

Framework LLM

Framework pour construire des applications avec des LLM. Chaînage de prompts, agents, mémoire, etc.

Ollama

Outil local

Exécutez des LLM localement sur votre machine (Llama, Mistral, etc.). Simple comme Docker.

LM Studio

Application desktop

Interface graphique pour exécuter des LLM localement. Supporte GGUF, GPTQ, AWQ. Gratuit et open-source.

Vous connaissez une ressource manquante ?

N'hésitez pas à nous la suggérer via le formulaire de feedback en bas de page. Nous enrichissons régulièrement cette liste avec les meilleures ressources de la communauté.

Votre avis compte ! 💡

Aidez-nous à améliorer cette page en partageant votre expérience. Votre retour est précieux pour rendre le contenu encore plus clair et utile.

Comment évaluez-vous cette page ?