GLM-5: quando i grandi modelli imparano a "scrivere codice da soli", il passaggio da Vibe Coding a Agentic Engineering

❝

🎯 Riassunto in una frase: Zhipu AI ha collaborato con l'Università Tsinghua per lanciare il modello GLM-5 con 744B di parametri, comprimendo il carico computazionale dell'attenzione tramite il DeepSeek Sparse Attention (DSA), risolvendo l'efficienza dell'addestramento di compiti lunghi con il rinforzo asincrono (Async RL) e implementando un processo di addestramento posteriore a più fasi, permettendo al grande modello di evolversi da "Vibe Coding" a "Agentic Engineering", in grado di completare progetti ingegneristici reali in modo autonomo.

Perché è necessario questo articolo?

All'inizio del 2025, Andrej Karpathy ha proposto un concetto interessante: Vibe Coding, che significa che basta descrivere i requisiti in linguaggio naturale e "sentire" l'AI scrivere codice. Questa è davvero l'esperienza principale della programmazione AI attuale: dici una frase e il modello genera un pezzo di codice, il cui successo dipende dalla fortuna.

Ma il problema è: la vera ingegneria del software è molto più complessa del semplice "scrivere codice". Un vero ingegnere deve comprendere l'architettura del progetto, fare debug degli errori, gestire le dipendenze e affrontare la collaborazione tra moduli: tutte cose che non possono essere risolte con "una prompt che genera un codice". L'obiettivo di questo articolo è trasformare il modello da "assistente che scrive codice" a "ingegnere in grado di gestire autonomamente l'intero progetto".

Non è un obiettivo da poco. Per raggiungerlo, il team di Zhipu ha fatto molte innovazioni nell'architettura del modello, nel processo di addestramento e negli algoritmi di rinforzo. Questa analisi ti guiderà attraverso questi dettagli tecnici.

Contributo principale: tre strumenti

Prima di entrare nei dettagli, chiarisci i tre contributi principali di GLM-5:

Contributo Problema risolto Idea centrale DSA Sparse Attention Esplosione dei costi computazionali per contesti lunghi di 128K Selezione dinamica dei token importanti, salto di quelli non rilevanti, risparmiando 1.5-2 volte la potenza di calcolo Framework di rinforzo asincrono GPU spesso inattive durante l'addestramento RL di compiti lunghi Generazione e addestramento completamente decoupled, parallelismo a pipeline Processo di addestramento posteriore a più fasi Difficoltà di bilanciare capacità multiple come inferenza, codifica, agenti SFT→inference RL→agent RL→general RL, accumulando progressivamente capacità

Architettura del modello: fare "sottrazione" sulla struttura MoE

Configurazione di base

GLM-5 utilizza un'architettura Mixture-of-Experts (MoE), con un totale di 744B di parametri, ma attiva solo circa 40B di parametri per ogni inferenza. Questo design "grande e sparso" è diventato un consenso nel settore: DeepSeek-V3/R1 e Qwen3 hanno seguito percorsi simili.

Come funziona realmente il DSA?

L'idea centrale del DSA può essere compresa con una metafora: immagina di cercare materiale in una biblioteca. L'attenzione standard è come sfogliare ogni libro dell'intera biblioteca e poi decidere quali sono utili. Mentre il DSA è più simile a un bibliotecario esperto: prima utilizza un indicizzatore lampo (Lightning Index) per scansionare rapidamente i titoli sugli scaffali, individuando alcune aree potenzialmente rilevanti, e poi legge attentamente solo i paragrafi specifici in queste aree.

Processo di addestramento: "livellare" in quattro fasi

Il processo di addestramento di GLM-5 è il fulcro di questo articolo, suddiviso in due fasi principali: pre-addestramento e post-addestramento.

Fase di pre-addestramento

Dimensione dei dati: 27T token, con proporzioni di dati miste che includono pagine web, codice, articoli accademici, libri, ecc.
Espansione del contesto: attraverso l'addestramento intermedio, il contesto è stato gradualmente esteso da 4K a 200K, utilizzando l'adattamento della frequenza RoPE.
Fase di annealing: alla fine del pre-addestramento, utilizzo di dati di qualità superiore per un "affinamento".

Quattro fasi del post-addestramento

Questa è la parte più distintiva di GLM-5. GLM-5 ha implementato quattro fasi:

Supervised Fine-Tuning (SFT): affinamento con dati di istruzioni di alta qualità.
Reasoning Reinforcement Learning (Reasoning RL): addestramento RL su compiti di ragionamento matematico e di codice.
Agentic Reinforcement Learning (Agentic RL): questa è l'innovazione chiave.
General Reinforcement Learning (General RL): addestramento RL su compiti generali più ampi.

Rinforzo asincrono: far sì che le GPU non "perdano tempo"

L'addestramento RL tradizionale è sincronizzato: raccolta di un lotto di dati → calcolo delle ricompense → aggiornamento del modello → nuova raccolta. Questo non è un problema quando il tempo di compito è breve, ma i compiti degli agenti richiedono spesso decine di interazioni.

Interpretazione approfondita dei risultati sperimentali

Confronto dei principali benchmark

Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9

Conclusione

L'articolo su GLM-5 è ricco di informazioni. Al di là dei numeri specifici, il messaggio centrale è: il prossimo campo di battaglia per i grandi modelli è "lavorare" e non solo "rispondere a domande".

A livello competitivo, GLM-5 dimostra la competitività del team AI cinese nella ricerca all'avanguardia sui grandi modelli.

Informazioni sull'articolo

Titolo: GLM-5: from Vibe Coding to Agentic Engineering
Istituzione: Zhipu AI & Università Tsinghua
Link: https://arxiv.org/abs/2602.15763

GLM-5: quando i grandi modelli imparano a "scrivere codice da soli", il passaggio da Vibe Coding a Agentic Engineering

GLM-5: quando i grandi modelli imparano a "scrivere codice da soli", il passaggio da Vibe Coding a Agentic Engineering

Perché è necessario questo articolo?

Contributo principale: tre strumenti

Architettura del modello: fare "sottrazione" sulla struttura MoE

Configurazione di base

Come funziona realmente il DSA?

Processo di addestramento: "livellare" in quattro fasi

Fase di pre-addestramento

Quattro fasi del post-addestramento

Rinforzo asincrono: far sì che le GPU non "perdano tempo"

Interpretazione approfondita dei risultati sperimentali

Confronto dei principali benchmark

Conclusione

Informazioni sull'articolo

You Might Also Like

Guida alla modifica di Claude Code Buddy: come ottenere un animale domestico leggendario splendente

Obsidian ha lanciato Defuddle, portando Obsidian Web Clipper a un nuovo livello

OpenAI annuncia improvvisamente "tre in uno": fusione di browser + programmazione + ChatGPT, ammettendo internamente di aver sbagliato nell'ultimo anno

2026, non costringerti più alla "disciplina"! Fai queste 8 piccole cose e la salute arriverà naturalmente

Quelle mamme che si sforzano di dimagrire ma non ci riescono, sicuramente sono cadute qui

Guida al funzionamento stabile dell'AI Browser 24 ore su 24