GLM-5: quan els grans models aprenen a "escriure codi per si mateixos", el salt de Vibe Coding a Agentic Engineering
GLM-5: quan els grans models aprenen a "escriure codi per si mateixos", el salt de Vibe Coding a Agentic Engineering
❝
🎯 Resum en una frase: Zhizhu AI, en col·laboració amb la Universitat Tsinghua, ha llançat el model GLM-5 amb 744B de paràmetres, que utilitza DeepSeek Sparse Attention (DSA) per comprimir la càrrega de càlcul d'atenció, aprenentatge reforçat totalment asíncron (Async RL) per resoldre l'eficiència de formació en tasques llargues, i un procés de post-formació en múltiples etapes, permetent que el gran model evolucioni de "Vibe Coding" a "Agentic Engineering", capaç de completar projectes d'enginyeria reals de manera independent.
Per què necessitem aquest article?
Andrej Karpathy va proposar a principis de 2025 un concepte interessant: Vibe Coding, que significa que només cal descriure les necessitats en llenguatge natural i "deixar que l'AI escrigui codi". Aquesta és realment l'experiència principal actual de la programació AI: dius una frase i el model et genera un fragment de codi, i l'efecte depèn de la sort.
Però aquí ve el problema: l'enginyeria de programari real és molt més que "escriure codi". Un veritable enginyer ha de comprendre l'arquitectura del projecte, depurar errors, gestionar dependències, i tractar la col·laboració entre mòduls — tot això no es pot resoldre amb "una prompt i un fragment de codi". L'objectiu d'aquest article sobre GLM-5 és fer que el model passi de ser "un assistent que t'ajuda a escriure codi" a "un enginyer que pot gestionar tot el projecte de manera independent".
Això no és un petit objectiu. Per aconseguir-ho, l'equip de Zhizhu ha realitzat moltes innovacions en l'arquitectura del model, el procés de formació i els algoritmes d'aprenentatge reforçat. Aquesta interpretació t'ajudarà a desglossar aquests detalls tècnics.
Contribució central: tres eixos
Abans d'entrar en detalls, aclarem les tres contribucions centrals de GLM-5:
Contribució | Problema resolt | Idea central --- | --- | --- Atenció escassa DSA | Explosió de costos de càlcul per a contextos llargs de 128K | Selecció dinàmica de tokens importants, saltant els no rellevants, estalviant 1.5-2 vegades la potència de càlcul Marc d'aprenentatge reforçat asíncron | GPU inactius en l'entrenament RL de tasques llargues | Generació i entrenament completament desacoblats, paral·lelisme en forma de cadena Procés de post-formació en múltiples etapes | Dificultat per equilibrar múltiples capacitats com inferència, codificació i agents | SFT → inferència RL → agent RL → RL general, acumulant capacitats gradualment
Arquitectura del model: fer "subtracció" sobre l'estructura de MoE
Configuració bàsica
GLM-5 utilitza l'arquitectura Mixture-of-Experts (MoE), amb un total de 744B de paràmetres, però només activa aproximadament 40B de paràmetres en cada inferència. Aquest disseny "gran i escàs" s'ha convertit en un consens en la indústria — DeepSeek-V3/R1, Qwen3 han seguit rutes similars.
Com funciona realment DSA?
La idea central de DSA es pot entendre amb una metàfora: imagina que estàs buscant informació en una biblioteca. L'atenció estàndard és com si passes per cada llibre de tota la biblioteca i decideixes quins són útils. En canvi, DSA és més com un bibliotecari experimentat — primer utilitza un indexador ràpid (Lightning Index) per escanejar ràpidament els títols dels llibres, identificant algunes àrees potencialment rellevants, i després només llegeix en profunditat els paràgrafs específics d'aquestes àrees.
Procés de formació: "nivellant" en quatre etapes
El procés de formació de GLM-5 és el nucli d'aquest article, dividit en dues grans etapes: pre-formació i post-formació.
Etapa de pre-formació
- Escala de dades: 27T de tokens, amb una proporció de dades que inclou pàgines web, codi, articles acadèmics, llibres, etc.
- Expansió del context: A través de la formació intermèdia, el context s'expandeix gradualment de 4K a 200K, utilitzant ajustaments de freqüència RoPE.
- Etapa d'annealing: Al final de la pre-formació, es fa un "refinament" amb dades de més alta qualitat.
Quatre passos de post-formació
Aquesta és la part més característica de GLM-5. GLM-5 ha realitzat quatre rondes:
- Ajustament supervisat (SFT): ajustament amb dades d'instrucció de alta qualitat.
- Aprenentatge reforçat d'inferència (Reasoning RL): entrenament RL en tasques de raonament matemàtic i de codi.
- Aprenentatge reforçat d'agents (Agentic RL): aquesta és la innovació clau.
- Aprenentatge reforçat general (General RL): entrenament RL en tasques generals més àmplies.
Aprenentatge reforçat asíncron: evitar que la GPU "no treballi"
L'entrenament RL tradicional és sincronitzat: recopila un lot de dades → calcula recompenses → actualitza el model → torna a recopilar. Això no és un problema en tasques de temps curt, però les tasques d'agents sovint necessiten desenes d'interaccions.
Interpretació profunda dels resultats experimentals
Comparació de referències principals
Referència | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro --- | --- | --- | --- | --- | --- | --- MMLU | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
Resum
L'article sobre GLM-5 conté una gran quantitat d'informació. Deixant de banda els números concrets, el missatge central que transmet és: el proper camp de batalla dels grans models és "fer feina" i no només "respondre preguntes".
En termes de competència, GLM-5 demostra la competitivitat de l'equip d'AI xinès en la recerca d'avantguarda dels grans models.
Informació de l'article
- Títol: GLM-5: from Vibe Coding to Agentic Engineering
- Institució: Zhizhu AI & Universitat Tsinghua
- Enllaç: https://arxiv.org/abs/2602.15763

