GLM-5: Ko veliki modeli naučijo "sami pisati kodo", prehod od Vibe Coding do Agentic Engineering
GLM-5: Ko veliki modeli naučijo "sami pisati kodo", prehod od Vibe Coding do Agentic Engineering
❝
🎯 Povzetek v eni povedi: ZhiPu AI v sodelovanju s Tsinghua University je predstavil model GLM-5 s 744B parametri, ki z uporabo DeepSeek Sparse Attention (DSA) zmanjšuje količino izračunov pozornosti, z uporabo popolnoma asinhronega ojačevalnega učenja (Async RL) rešuje učinkovitost usposabljanja dolgih nalog in z večstopenjskim postopkom po usposabljanju omogoča, da se veliki modeli razvijejo iz "Vibe Coding" v "Agentic Engineering", kar pomeni, da lahko samostojno dokončajo resnične inženirske projekte.
Zakaj potrebujemo to raziskavo?
Andrej Karpathy je na začetku leta 2025 predstavil zanimivo koncept - Vibe Coding, kar pomeni, da lahko preprosto opišete zahteve v naravnem jeziku in "na občutek" pustite AI, da piše kodo. To je resnično trenutna prevladujoča izkušnja AI programiranja: rečete stavek, model vam pomaga ustvariti del kode, kako dobro deluje, pa je odvisno od sreče.
Toda težava je: pravi programski inženiring ni tako preprost kot "pisanje kode". Pravi inženir mora razumeti arhitekturo projekta, odpravljati napake, upravljati odvisnosti, obravnavati sodelovanje med moduli - to vse niso stvari, ki bi jih lahko rešili s "eno pozivno sporočilo in eno kodo". Namen raziskave GLM-5 je, da model spremeni iz "pomočnika, ki vam piše kodo" v "inženirja, ki lahko samostojno reši celoten projekt".
To ni majhen cilj. Da bi ga dosegli, je ekipa ZhiPu naredila številne inovacije na področju arhitekture modela, postopkov usposabljanja in algoritmov ojačevalnega učenja. Ta razlaga vas bo popeljala skozi te tehnične podrobnosti.
Ključni prispevek: tri glavne inovacije
Preden se poglobimo v podrobnosti, najprej razjasnimo tri ključne prispevke GLM-5:
| Prispevek | Rešitev problema | Ključna ideja | | --- | --- | --- | | DSA redčena pozornost | Eksplozivni izračuni za 128K dolg kontekst | Dinamično izbira pomembne tokene, preskoči nepovezane, prihrani 1.5-2 krat računske moči | | Asinhroni okvir ojačevalnega učenja | Veliko prostega GPU pri usposabljanju dolgih nalog RL | Generiranje in usposabljanje sta popolnoma ločena, paralelno v tekočem traku | | Večstopenjski postopek po usposabljanju | Težko usklajevanje več sposobnosti, kot so sklepanje, kodiranje, agent | SFT → sklepanje RL → agent RL → splošni RL, postopno dodajanje sposobnosti |
Arhitektura modela: "odštevanje" na osnovi MoE
Osnovna konfiguracija
GLM-5 uporablja arhitekturo Mešanica strokovnjakov (MoE), skupno število parametrov je 744B, vendar se ob vsakem sklepanju aktivira le približno 40B parametrov. Ta "velik in redek" dizajn je že postal industrijski konsenz - DeepSeek-V3/R1, Qwen3 so šli po podobni poti.
Kako DSA pravzaprav deluje?
Osnovna ideja DSA se lahko razume s pomočjo metafore: predstavljajte si, da iščete gradivo v knjižnici. Standardna pozornost je kot da bi prelistali vsako knjigo v knjižnici in se odločili, katere so uporabne. DSA pa je bolj podoben izkušenemu knjižničarju - najprej hitro pregleda naslove na policah s pomočjo bliskovitega indeksatorja (Lightning Index), da določi nekaj potencialno povezanih območij, nato pa natančno prebere le specifične odstavke v teh območjih.
Postopek usposabljanja: štiristopenjski "napredovanje"
Postopek usposabljanja GLM-5 je osrednji del te raziskave, razdeljen je na predusposabljanje in po usposabljanju.
Faza predusposabljanja
- Obseg podatkov: 27T tokenov, razmerje mešanice podatkov vključuje spletne strani, kodo, akademske članke, knjige itd.
- Razširitev konteksta: postopno širjenje konteksta iz 4K na 200K med srednjim usposabljanjem, z uporabo RoPE frekvenčnega prilagajanja.
- Faza žganja: na koncu predusposabljanja z bolj kakovostnimi podatki opravi "fino nastavitev".
Štiri korake po usposabljanju
To je najbolj značilen del GLM-5. GLM-5 je izvedel štiri kroge:
- Nadzorovano fino nastavitev (SFT) z visokokakovostnimi podatki o navodilih.
- Ojačevalno učenje sklepanja (Reasoning RL) na nalogah matematičnega in kodnega sklepanja.
- Ojačevalno učenje agenta (Agentic RL), kar je ključna inovacija.
- Splošno ojačevalno učenje (General RL) na širšem spektru splošnih nalog.
Asinhrono ojačevalno učenje: da GPU ne "lenarijo"
Tradicionalno ojačevalno učenje je sinhrono: zberite serijo podatkov → izračunajte nagrado → posodobite model → ponovno zberite. To deluje brez težav pri kratkih nalogah, vendar naloge agentov pogosto zahtevajo desetine interakcij.
Globoka razlaga rezultatov eksperimentov
Glavne primerjalne osnove
| Osnova | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
Zaključek
Raziskava GLM-5 vsebuje veliko informacij. Ne glede na konkretne številke, je ključna informacija, ki jo prenaša: naslednje bojišče velikih modelov je "opravljanje dela", ne le "odgovarjanje na vprašanja".
Na konkurenčni ravni GLM-5 dokazuje konkurenčnost kitajskih AI ekip na področju raziskav velikih modelov.
Informacije o raziskavi
- Naslov: GLM-5: od Vibe Coding do Agentic Engineering
- Organizacija: ZhiPu AI & Tsinghua University
- Povezava: https://arxiv.org/abs/2602.15763

