GLM-5: quando i grandi modelli imparano a "scrivere codice da soli", il passaggio da Vibe Coding a Agentic Engineering
GLM-5: quando i grandi modelli imparano a "scrivere codice da soli", il passaggio da Vibe Coding a Agentic Engineering
❝
🎯 Riassunto in una frase: Zhipu AI ha collaborato con l'Università Tsinghua per lanciare il modello GLM-5 con 744B di parametri, comprimendo il carico computazionale dell'attenzione tramite il DeepSeek Sparse Attention (DSA), risolvendo l'efficienza dell'addestramento di compiti lunghi con il rinforzo asincrono (Async RL) e implementando un processo di addestramento posteriore a più fasi, permettendo al grande modello di evolversi da "Vibe Coding" a "Agentic Engineering", in grado di completare progetti ingegneristici reali in modo autonomo.
Perché è necessario questo articolo?
All'inizio del 2025, Andrej Karpathy ha proposto un concetto interessante: Vibe Coding, che significa che basta descrivere i requisiti in linguaggio naturale e "sentire" l'AI scrivere codice. Questa è davvero l'esperienza principale della programmazione AI attuale: dici una frase e il modello genera un pezzo di codice, il cui successo dipende dalla fortuna.
Ma il problema è: la vera ingegneria del software è molto più complessa del semplice "scrivere codice". Un vero ingegnere deve comprendere l'architettura del progetto, fare debug degli errori, gestire le dipendenze e affrontare la collaborazione tra moduli: tutte cose che non possono essere risolte con "una prompt che genera un codice". L'obiettivo di questo articolo è trasformare il modello da "assistente che scrive codice" a "ingegnere in grado di gestire autonomamente l'intero progetto".
Non è un obiettivo da poco. Per raggiungerlo, il team di Zhipu ha fatto molte innovazioni nell'architettura del modello, nel processo di addestramento e negli algoritmi di rinforzo. Questa analisi ti guiderà attraverso questi dettagli tecnici.
Contributo principale: tre strumenti
Prima di entrare nei dettagli, chiarisci i tre contributi principali di GLM-5:
Contributo Problema risolto Idea centrale DSA Sparse Attention Esplosione dei costi computazionali per contesti lunghi di 128K Selezione dinamica dei token importanti, salto di quelli non rilevanti, risparmiando 1.5-2 volte la potenza di calcolo Framework di rinforzo asincrono GPU spesso inattive durante l'addestramento RL di compiti lunghi Generazione e addestramento completamente decoupled, parallelismo a pipeline Processo di addestramento posteriore a più fasi Difficoltà di bilanciare capacità multiple come inferenza, codifica, agenti SFT→inference RL→agent RL→general RL, accumulando progressivamente capacità
Architettura del modello: fare "sottrazione" sulla struttura MoE
Configurazione di base
GLM-5 utilizza un'architettura Mixture-of-Experts (MoE), con un totale di 744B di parametri, ma attiva solo circa 40B di parametri per ogni inferenza. Questo design "grande e sparso" è diventato un consenso nel settore: DeepSeek-V3/R1 e Qwen3 hanno seguito percorsi simili.
Come funziona realmente il DSA?
L'idea centrale del DSA può essere compresa con una metafora: immagina di cercare materiale in una biblioteca. L'attenzione standard è come sfogliare ogni libro dell'intera biblioteca e poi decidere quali sono utili. Mentre il DSA è più simile a un bibliotecario esperto: prima utilizza un indicizzatore lampo (Lightning Index) per scansionare rapidamente i titoli sugli scaffali, individuando alcune aree potenzialmente rilevanti, e poi legge attentamente solo i paragrafi specifici in queste aree.
Processo di addestramento: "livellare" in quattro fasi
Il processo di addestramento di GLM-5 è il fulcro di questo articolo, suddiviso in due fasi principali: pre-addestramento e post-addestramento.
Fase di pre-addestramento
- Dimensione dei dati: 27T token, con proporzioni di dati miste che includono pagine web, codice, articoli accademici, libri, ecc.
- Espansione del contesto: attraverso l'addestramento intermedio, il contesto è stato gradualmente esteso da 4K a 200K, utilizzando l'adattamento della frequenza RoPE.
- Fase di annealing: alla fine del pre-addestramento, utilizzo di dati di qualità superiore per un "affinamento".
Quattro fasi del post-addestramento
Questa è la parte più distintiva di GLM-5. GLM-5 ha implementato quattro fasi:
- Supervised Fine-Tuning (SFT): affinamento con dati di istruzioni di alta qualità.
- Reasoning Reinforcement Learning (Reasoning RL): addestramento RL su compiti di ragionamento matematico e di codice.
- Agentic Reinforcement Learning (Agentic RL): questa è l'innovazione chiave.
- General Reinforcement Learning (General RL): addestramento RL su compiti generali più ampi.
Rinforzo asincrono: far sì che le GPU non "perdano tempo"
L'addestramento RL tradizionale è sincronizzato: raccolta di un lotto di dati → calcolo delle ricompense → aggiornamento del modello → nuova raccolta. Questo non è un problema quando il tempo di compito è breve, ma i compiti degli agenti richiedono spesso decine di interazioni.
Interpretazione approfondita dei risultati sperimentali
Confronto dei principali benchmark
Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9
Conclusione
L'articolo su GLM-5 è ricco di informazioni. Al di là dei numeri specifici, il messaggio centrale è: il prossimo campo di battaglia per i grandi modelli è "lavorare" e non solo "rispondere a domande".
A livello competitivo, GLM-5 dimostra la competitività del team AI cinese nella ricerca all'avanguardia sui grandi modelli.
Informazioni sull'articolo
- Titolo: GLM-5: from Vibe Coding to Agentic Engineering
- Istituzione: Zhipu AI & Università Tsinghua
- Link: https://arxiv.org/abs/2602.15763

