GLM-5 : Quand les grands modèles apprennent à "écrire leur propre code", le passage du Vibe Coding à l'Agentic Engineering
GLM-5 : Quand les grands modèles apprennent à "écrire leur propre code", le passage du Vibe Coding à l'Agentic Engineering
❝
🎯 Résumé en une phrase : Zhizhu AI, en collaboration avec l'Université Tsinghua, a lancé le modèle GLM-5 avec 744 milliards de paramètres, en utilisant DeepSeek Sparse Attention (DSA) pour réduire la charge de calcul d'attention, l'apprentissage par renforcement asynchrone (Async RL) pour améliorer l'efficacité de l'entraînement des tâches longues, et un processus d'entraînement postérieur en plusieurs étapes, permettant au grand modèle d'évoluer du "Vibe Coding" à l'"Agentic Engineering" capable de réaliser des projets d'ingénierie réels de manière autonome.
Pourquoi ce papier est-il nécessaire ?
Andrej Karpathy a proposé un concept intéressant au début de 2025 - Vibe Coding, ce qui signifie que vous devez simplement décrire vos besoins en langage naturel et "laisser l'IA écrire le code". C'est effectivement l'expérience principale de la programmation par IA actuelle : vous dites une phrase, le modèle génère un morceau de code, et la qualité dépend entièrement de la chance.
Mais le problème est le suivant : le véritable génie logiciel va bien au-delà de "l'écriture de code". Un véritable ingénieur doit comprendre l'architecture du projet, déboguer les erreurs, gérer les dépendances, traiter la collaboration inter-modules - tout cela ne peut pas être résolu par "une invite pour un morceau de code". Ce que ce papier sur GLM-5 vise à faire, c'est de transformer le modèle d'un "assistant qui vous aide à écrire du code" en "un ingénieur capable de gérer un projet entier de manière autonome".
Ce n'est pas un petit objectif. Pour y parvenir, l'équipe de Zhizhu a réalisé de nombreuses innovations dans l'architecture du modèle, le processus d'entraînement et les algorithmes d'apprentissage par renforcement. Cette interprétation vous aidera à décomposer ces détails techniques.
Contributions principales : Trois axes
Avant d'entrer dans les détails, clarifions les trois contributions principales de GLM-5 :
Contribution Problème résolu Idée principale DSA Attention Sparse Explosion des coûts de calcul pour un contexte long de 128K Sélection dynamique des tokens importants, saut des non pertinents, économisant 1,5 à 2 fois la puissance de calcul Cadre d'apprentissage par renforcement asynchrone GPU largement inactif lors de l'entraînement RL de tâches longues Génération et entraînement complètement découplés, parallélisation en pipeline Processus d'entraînement postérieur en plusieurs étapes Difficulté à concilier plusieurs capacités telles que l'inférence, le codage, et l'agent SFT → inférence RL → agent RL → RL général, ajout progressif de capacités
Architecture du modèle : Faire des "soustractions" sur le squelette de MoE
Configuration de base
GLM-5 utilise une architecture Mixture-of-Experts (MoE), avec un total de 744 milliards de paramètres, mais seulement environ 40 milliards de paramètres sont activés à chaque inférence. Ce design "grand et sparse" est devenu un consensus dans l'industrie - DeepSeek-V3/R1, Qwen3 ont suivi une voie similaire.
Comment fonctionne réellement DSA ?
L'idée centrale de DSA peut être comprise par une métaphore : imaginez que vous cherchez des informations dans une bibliothèque. L'attention standard est comme parcourir chaque livre de la bibliothèque, puis décider lesquels sont utiles. Tandis que DSA ressemble davantage à un bibliothécaire expérimenté - il utilise d'abord un indexeur éclair (Lightning Index) pour scanner rapidement les titres des étagères, identifier quelques zones potentiellement pertinentes, puis ne lit en profondeur que les paragraphes spécifiques de ces zones.
Processus d'entraînement : Quatre étapes de "montée en niveau"
Le processus d'entraînement de GLM-5 est le point central de ce papier, divisé en deux grandes phases : pré-entraînement et post-entraînement.
Phase de pré-entraînement
- Échelle des données : 27T tokens, le mélange de données comprend des pages web, du code, des articles académiques, des livres, etc.
- Extension du contexte : À travers un entraînement intermédiaire, le contexte est progressivement étendu de 4K à 200K, utilisant un ajustement de fréquence RoPE.
- Phase de recuit : À la fin du pré-entraînement, des données de meilleure qualité sont utilisées pour un "affinage".
Quatuor de post-entraînement
C'est la partie la plus distinctive de GLM-5. GLM-5 a effectué quatre tours :
- Ajustement supervisé (SFT) avec des données d'instructions de haute qualité.
- Apprentissage par renforcement d'inférence (Reasoning RL) sur des tâches de raisonnement mathématique et de code.
- Apprentissage par renforcement d'agent (Agentic RL), c'est l'innovation clé.
- Apprentissage par renforcement général (General RL), sur des tâches générales plus larges.
Apprentissage par renforcement asynchrone : Éviter que le GPU ne "perde son temps"
L'entraînement RL traditionnel est synchronisé : collecte d'un lot de données → calcul des récompenses → mise à jour du modèle → collecte à nouveau. Cela ne pose pas de problème lorsque le temps de tâche est court, mais les tâches d'agent nécessitent souvent des interactions sur plusieurs dizaines d'étapes.
Interprétation approfondie des résultats expérimentaux
Comparaison des principales références
Référence GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9
Conclusion
Le papier sur GLM-5 contient une grande quantité d'informations. Au-delà des chiffres spécifiques, le message central qu'il transmet est : le prochain champ de bataille des grands modèles est "le travail" et pas seulement "répondre à des questions".
Sur le plan concurrentiel, GLM-5 prouve la compétitivité des équipes d'IA chinoises dans la recherche de pointe sur les grands modèles.
Informations sur le papier
- Titre : GLM-5 : du Vibe Coding à l'Agentic Engineering
- Institutions : Zhizhu AI & Université Tsinghua
- Lien : https://arxiv.org/abs/2602.15763

