GLM-5: quando i grandi modelli imparano a "scrivere codice da soli", il passaggio da Vibe Coding a Agentic Engineering

2/26/2026
4 min read

GLM-5: quando i grandi modelli imparano a "scrivere codice da soli", il passaggio da Vibe Coding a Agentic Engineering

🎯 Riassunto in una frase: Zhipu AI ha collaborato con l'Università Tsinghua per lanciare il modello GLM-5 con 744B di parametri, comprimendo il carico computazionale dell'attenzione tramite il DeepSeek Sparse Attention (DSA), risolvendo l'efficienza dell'addestramento di compiti lunghi con il rinforzo asincrono (Async RL) e implementando un processo di addestramento posteriore a più fasi, permettendo al grande modello di evolversi da "Vibe Coding" a "Agentic Engineering", in grado di completare progetti ingegneristici reali in modo autonomo.

Perché è necessario questo articolo?

All'inizio del 2025, Andrej Karpathy ha proposto un concetto interessante: Vibe Coding, che significa che basta descrivere i requisiti in linguaggio naturale e "sentire" l'AI scrivere codice. Questa è davvero l'esperienza principale della programmazione AI attuale: dici una frase e il modello genera un pezzo di codice, il cui successo dipende dalla fortuna.

Ma il problema è: la vera ingegneria del software è molto più complessa del semplice "scrivere codice". Un vero ingegnere deve comprendere l'architettura del progetto, fare debug degli errori, gestire le dipendenze e affrontare la collaborazione tra moduli: tutte cose che non possono essere risolte con "una prompt che genera un codice". L'obiettivo di questo articolo è trasformare il modello da "assistente che scrive codice" a "ingegnere in grado di gestire autonomamente l'intero progetto".

Non è un obiettivo da poco. Per raggiungerlo, il team di Zhipu ha fatto molte innovazioni nell'architettura del modello, nel processo di addestramento e negli algoritmi di rinforzo. Questa analisi ti guiderà attraverso questi dettagli tecnici.

Contributo principale: tre strumenti

Prima di entrare nei dettagli, chiarisci i tre contributi principali di GLM-5:

Contributo Problema risolto Idea centrale DSA Sparse Attention Esplosione dei costi computazionali per contesti lunghi di 128K Selezione dinamica dei token importanti, salto di quelli non rilevanti, risparmiando 1.5-2 volte la potenza di calcolo Framework di rinforzo asincrono GPU spesso inattive durante l'addestramento RL di compiti lunghi Generazione e addestramento completamente decoupled, parallelismo a pipeline Processo di addestramento posteriore a più fasi Difficoltà di bilanciare capacità multiple come inferenza, codifica, agenti SFT→inference RL→agent RL→general RL, accumulando progressivamente capacità

Architettura del modello: fare "sottrazione" sulla struttura MoE

Configurazione di base

GLM-5 utilizza un'architettura Mixture-of-Experts (MoE), con un totale di 744B di parametri, ma attiva solo circa 40B di parametri per ogni inferenza. Questo design "grande e sparso" è diventato un consenso nel settore: DeepSeek-V3/R1 e Qwen3 hanno seguito percorsi simili.

Come funziona realmente il DSA?

L'idea centrale del DSA può essere compresa con una metafora: immagina di cercare materiale in una biblioteca. L'attenzione standard è come sfogliare ogni libro dell'intera biblioteca e poi decidere quali sono utili. Mentre il DSA è più simile a un bibliotecario esperto: prima utilizza un indicizzatore lampo (Lightning Index) per scansionare rapidamente i titoli sugli scaffali, individuando alcune aree potenzialmente rilevanti, e poi legge attentamente solo i paragrafi specifici in queste aree.

Processo di addestramento: "livellare" in quattro fasi

Il processo di addestramento di GLM-5 è il fulcro di questo articolo, suddiviso in due fasi principali: pre-addestramento e post-addestramento.

Fase di pre-addestramento

  • Dimensione dei dati: 27T token, con proporzioni di dati miste che includono pagine web, codice, articoli accademici, libri, ecc.
  • Espansione del contesto: attraverso l'addestramento intermedio, il contesto è stato gradualmente esteso da 4K a 200K, utilizzando l'adattamento della frequenza RoPE.
  • Fase di annealing: alla fine del pre-addestramento, utilizzo di dati di qualità superiore per un "affinamento".

Quattro fasi del post-addestramento

Questa è la parte più distintiva di GLM-5. GLM-5 ha implementato quattro fasi:

  • Supervised Fine-Tuning (SFT): affinamento con dati di istruzioni di alta qualità.
  • Reasoning Reinforcement Learning (Reasoning RL): addestramento RL su compiti di ragionamento matematico e di codice.
  • Agentic Reinforcement Learning (Agentic RL): questa è l'innovazione chiave.
  • General Reinforcement Learning (General RL): addestramento RL su compiti generali più ampi.

Rinforzo asincrono: far sì che le GPU non "perdano tempo"

L'addestramento RL tradizionale è sincronizzato: raccolta di un lotto di dati → calcolo delle ricompense → aggiornamento del modello → nuova raccolta. Questo non è un problema quando il tempo di compito è breve, ma i compiti degli agenti richiedono spesso decine di interazioni.

Interpretazione approfondita dei risultati sperimentali

Confronto dei principali benchmark

Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9

Conclusione

L'articolo su GLM-5 è ricco di informazioni. Al di là dei numeri specifici, il messaggio centrale è: il prossimo campo di battaglia per i grandi modelli è "lavorare" e non solo "rispondere a domande".

A livello competitivo, GLM-5 dimostra la competitività del team AI cinese nella ricerca all'avanguardia sui grandi modelli.

Informazioni sull'articolo

Published in Technology

You Might Also Like