GLM-5: När stora modeller lär sig att "skriva kod själva", från Vibe Coding till Agentic Engineering
GLM-5: När stora modeller lär sig att "skriva kod själva", från Vibe Coding till Agentic Engineering
❝
🎯 Sammanfattning i en mening: Zhizhu AI har tillsammans med Tsinghua University lanserat GLM-5-modellen med 744B parametrar, som genom DeepSeek Sparse Attention (DSA) komprimerar beräkningsmängden för uppmärksamhet, använder helt asynkron förstärkningsinlärning (Async RL) för att lösa effektiviteten i lång träning av uppgifter, samt en flerfasig efterträningsprocess, vilket låter stora modeller utvecklas från "Vibe Coding" till att kunna slutföra verkliga ingenjörsprojekt som "Agentic Engineering".
Varför behövs denna artikel?
Andrej Karpathy föreslog i början av 2025 ett intressant koncept - Vibe Coding, vilket innebär att du bara behöver beskriva dina krav med naturligt språk och "känna efter" så att AI skriver koden. Detta är verkligen den nuvarande huvudupplevelsen av AI-programmering: du säger en mening, modellen hjälper dig att generera en kodsnutt, och hur bra det blir beror helt på tur.
Men problemet är: Verklig mjukvaruingenjörskonst är långt mer än bara "skriva kod". En riktig ingenjör behöver förstå projektets arkitektur, felsöka fel, hantera beroenden, och hantera samarbete mellan olika moduler - detta kan inte lösas med "en prompt ger en kodsnutt". Det GLM-5 den här artikeln syftar till är att göra modellen från "en assistent som hjälper dig att skriva kod" till "en ingenjör som kan hantera hela projektet själv".
Detta är inget litet mål. För att uppnå det har Zhizhu-teamet gjort stora innovationer inom modellarkitektur, träningsprocess och förstärkningsinlärningsalgoritmer. Denna tolkning kommer att bryta ner dessa tekniska detaljer.
Kärnkontribution: Tre huvudpunkter
Innan vi dyker ner i detaljerna, låt oss klargöra de tre kärnkontributionerna av GLM-5:
| Bidrag | Problemet som löses | Kärnidé | | --- | --- | --- | | DSA Sparse Attention | Beräkningskostnaden för 128K lång kontext exploderar | Dynamiskt välja viktiga tokens, hoppa över irrelevanta, spara 1.5-2 gånger beräkningskraft | | Asynkront förstärkningsinlärningsramverk | Mycket GPU-tid är ledig under lång RL-träning | Generering och träning helt avkopplade, pipeline-parallellisering | | Flerfasig efterträningsprocess | Svårt att balansera flera förmågor som inferens, kodning, agent | SFT → inferens RL → agent RL → generell RL, gradvis lägga till förmågor |
Modellarkitektur: Göra "subtraktion" på MoE:s ramverk
Grundkonfiguration
GLM-5 använder Mixture-of-Experts (MoE)-arkitektur, med totalt 744B parametrar, men aktiverar endast cirka 40B parametrar vid varje inferens. Denna "stora och sparsamma" design har blivit en branschstandard - DeepSeek-V3/R1, Qwen3 har följt en liknande väg.
Hur fungerar DSA egentligen?
Kärnidéen bakom DSA kan förstås med en liknelse: Föreställ dig att du letar efter information på ett bibliotek. Standarduppmärksamhet är som att bläddra igenom varje bok i hela biblioteket och sedan avgöra vilka som är användbara. Medan DSA mer liknar en erfaren bibliotekarie - den använder först Lightning Index för att snabbt skanna bokhyllornas titlar, låser upp några potentiellt relevanta områden, och läser sedan noggrant specifika stycken i dessa områden.
Träningsprocess: Fyra steg för "level-up"
GLM-5:s träningsprocess är huvudfokus i denna artikel, uppdelad i förträning och efterträning i två stora faser.
Förträningsfas
- Datastorlek: 27T tokens, datamixningsproportioner inkluderar webbplatser, kod, akademiska artiklar, böcker etc.
- Kontextutvidgning: Genom mellanliggande träning utvidgas kontexten från 4K till 200K, med RoPE-frekvensjustering.
- Avkylningsfas: I slutet av förträningen används högkvalitativa data för "finjustering".
Efterträningsfyrtal
Detta är den mest karakteristiska delen av GLM-5. GLM-5 genomförde fyra rundor:
- Övervakad finjustering (SFT) med högkvalitativa instruktioner.
- Resonansförstärkningsinlärning (Reasoning RL) för RL-träning på matematiska och kodresonansuppgifter.
- Agentförstärkningsinlärning (Agentic RL), detta är den avgörande innovationen.
- Allmän förstärkningsinlärning (General RL), för RL på bredare allmänna uppgifter.
Asynkron förstärkningsinlärning: Gör så att GPU inte längre "slappar av"
Traditionell RL-träning är synkron: samla en uppsättning data → beräkna belöning → uppdatera modellen → samla igen. Detta fungerar bra när uppgiftstiden är kort, men agentuppgifter kräver ofta tiotals interaktioner.
Djupgående tolkning av experimentresultat
Huvudbenchmarkjämförelse
| Benchmark | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
Sammanfattning
GLM-5:s artikel innehåller mycket information. Utan att gå in på specifika siffror, är det centrala budskapet: Det nästa slagfältet för stora modeller ligger i att "utföra arbete" snarare än bara "svara på frågor".
På konkurrensnivå bevisar GLM-5 den kinesiska AI-teamets konkurrenskraft inom forskningen av stora modeller.
Artikelinformation
- Titel: GLM-5: från Vibe Coding till Agentic Engineering
- Institution: Zhizhu AI & Tsinghua University
- Länk: https://arxiv.org/abs/2602.15763

