GLM-5 : Quand les grands modèles apprennent à "écrire leur propre code", le saut de Vibe Coding à l'Ingénierie Agentique
GLM-5 : Quand les grands modèles apprennent à "écrire leur propre code", le saut de Vibe Coding à l'Ingénierie Agentique
❝
🎯 Résumé en une phrase : Zhizhu AI, en collaboration avec l'Université Tsinghua, a lancé le modèle GLM-5 avec 744B de paramètres, en utilisant le DeepSeek Sparse Attention (DSA) pour réduire la charge de calcul d'attention, l'apprentissage par renforcement asynchrone (Async RL) pour améliorer l'efficacité de l'entraînement des tâches longues, et un processus de post-formation en plusieurs étapes, permettant au grand modèle d'évoluer de "Vibe Coding" à "Ingénieur Agentique" capable de réaliser des projets d'ingénierie réels de manière autonome.
Pourquoi ce papier est-il nécessaire ?
Andrej Karpathy a proposé un concept intéressant au début de 2025 - Vibe Coding, ce qui signifie que vous devez simplement décrire vos besoins en langage naturel et "laisser le sentiment" à l'IA d'écrire le code. C'est en effet l'expérience principale de la programmation par IA actuelle : vous dites une phrase, le modèle génère un morceau de code, et la qualité dépend entièrement de la chance.
Mais le problème est le suivant : l'ingénierie logicielle réelle est bien plus complexe que "écrire du code". Un véritable ingénieur doit comprendre l'architecture du projet, déboguer les erreurs, gérer les dépendances, traiter la collaboration entre modules - tout cela ne peut pas être résolu par "une invite pour un morceau de code". Ce que ce papier GLM-5 vise à faire, c'est de transformer le modèle d'un "assistant qui vous aide à écrire du code" en "ingénieur capable de gérer un projet entier de manière autonome".
Ce n'est pas un petit objectif. Pour y parvenir, l'équipe de Zhizhu a réalisé de nombreuses innovations dans l'architecture du modèle, le processus d'entraînement et les algorithmes d'apprentissage par renforcement. Cette analyse vous fera découvrir ces détails techniques.
Contributions principales : Trois axes
Avant d'entrer dans les détails, clarifions les trois contributions principales de GLM-5 :
Contribution Problème résolu Idée principale DSA Attention Sparse Coût de calcul explosif pour un contexte long de 128K Choix dynamique des tokens importants, saut des non pertinents, économisant 1.5 à 2 fois la puissance de calcul Cadre d'apprentissage par renforcement asynchrone GPU largement inactif lors de l'entraînement RL de tâches longues Génération et entraînement complètement découplés, parallélisation en pipeline Processus de post-formation en plusieurs étapes Difficulté à concilier plusieurs capacités comme le raisonnement, le codage et l'agent SFT → Raisonnement RL → Agent RL → RL général, ajout progressif des capacités
Architecture du modèle : Faire "moins" sur le squelette de MoE
Configuration de base
GLM-5 utilise l'architecture Mixture-of-Experts (MoE), avec un total de 744B de paramètres, mais seulement environ 40B de paramètres sont activés à chaque inférence. Ce design "grand et sparse" est devenu un consensus dans l'industrie - DeepSeek-V3/R1, Qwen3 ont suivi une voie similaire.
Comment fonctionne réellement le DSA ?
L'idée centrale du DSA peut être comprise par une métaphore : imaginez que vous cherchez des informations dans une bibliothèque. L'attention standard est comme parcourir chaque livre de la bibliothèque pour décider lesquels sont utiles. Tandis que DSA est plus comme un bibliothécaire expérimenté - il utilise d'abord un indexeur éclair (Lightning Index) pour scanner rapidement les titres des étagères, identifier quelques zones potentiellement pertinentes, puis ne lit attentivement que les paragraphes spécifiques dans ces zones.
Processus d'entraînement : Quatre étapes de "niveau supérieur"
Le processus d'entraînement de GLM-5 est le point central de ce papier, divisé en deux grandes phases : pré-entraînement et post-entraînement.
Phase de pré-entraînement
- Échelle des données : 27T de tokens, le mélange de données comprend des pages web, du code, des articles académiques, des livres, etc.
- Extension du contexte : À travers un entraînement intermédiaire, le contexte est progressivement étendu de 4K à 200K, utilisant un ajustement de fréquence RoPE.
- Phase de recuit : À la fin du pré-entraînement, des données de meilleure qualité sont utilisées pour un "affinage".
Quatuor de post-entraînement
C'est la partie la plus distinctive de GLM-5. GLM-5 a réalisé quatre tours :
- Ajustement supervisé (SFT) avec des données d'instructions de haute qualité.
- Apprentissage par renforcement de raisonnement (Reasoning RL) sur des tâches de raisonnement mathématique et de code.
- Apprentissage par renforcement agentique (Agentic RL), c'est l'innovation clé.
- Apprentissage par renforcement général (General RL), sur des tâches générales plus larges.
Apprentissage par renforcement asynchrone : Éviter que le GPU ne "perde son temps"
L'entraînement RL traditionnel est synchronisé : collecte d'un lot de données → calcul des récompenses → mise à jour du modèle → nouvelle collecte. Cela fonctionne bien lorsque le temps de tâche est court, mais les tâches d'agent nécessitent souvent des interactions sur plusieurs dizaines d'étapes.
Analyse approfondie des résultats expérimentaux
Comparaison des principales références
Référence GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9
Conclusion
Le papier GLM-5 contient une grande quantité d'informations. Au-delà des chiffres spécifiques, le message central qu'il transmet est : le prochain champ de bataille des grands modèles est "faire le travail" et pas seulement "répondre aux questions".
Sur le plan de la concurrence, GLM-5 prouve la compétitivité des équipes d'IA chinoises dans la recherche de pointe sur les grands modèles.
Informations sur le papier
- Titre : GLM-5 : de Vibe Coding à l'Ingénierie Agentique
- Institutions : Zhizhu AI & Université Tsinghua
- Lien : https://arxiv.org/abs/2602.15763

