GLM-5: Ko veliki modeli naučijo "sami pisati kodo", prehod od Vibe Coding do Agentic Engineering

❝

🎯 Povzetek v eni povedi: ZhiPu AI v sodelovanju s Tsinghua University je predstavil model GLM-5 s 744B parametri, ki z uporabo DeepSeek Sparse Attention (DSA) zmanjšuje količino izračunov pozornosti, z uporabo popolnoma asinhronega ojačevalnega učenja (Async RL) rešuje učinkovitost usposabljanja dolgih nalog in z večstopenjskim postopkom po usposabljanju omogoča, da se veliki modeli razvijejo iz "Vibe Coding" v "Agentic Engineering", kar pomeni, da lahko samostojno dokončajo resnične inženirske projekte.

Zakaj potrebujemo to raziskavo?

Andrej Karpathy je na začetku leta 2025 predstavil zanimivo koncept - Vibe Coding, kar pomeni, da lahko preprosto opišete zahteve v naravnem jeziku in "na občutek" pustite AI, da piše kodo. To je resnično trenutna prevladujoča izkušnja AI programiranja: rečete stavek, model vam pomaga ustvariti del kode, kako dobro deluje, pa je odvisno od sreče.

Toda težava je: pravi programski inženiring ni tako preprost kot "pisanje kode". Pravi inženir mora razumeti arhitekturo projekta, odpravljati napake, upravljati odvisnosti, obravnavati sodelovanje med moduli - to vse niso stvari, ki bi jih lahko rešili s "eno pozivno sporočilo in eno kodo". Namen raziskave GLM-5 je, da model spremeni iz "pomočnika, ki vam piše kodo" v "inženirja, ki lahko samostojno reši celoten projekt".

To ni majhen cilj. Da bi ga dosegli, je ekipa ZhiPu naredila številne inovacije na področju arhitekture modela, postopkov usposabljanja in algoritmov ojačevalnega učenja. Ta razlaga vas bo popeljala skozi te tehnične podrobnosti.

Ključni prispevek: tri glavne inovacije

Preden se poglobimo v podrobnosti, najprej razjasnimo tri ključne prispevke GLM-5:

| Prispevek | Rešitev problema | Ključna ideja | | --- | --- | --- | | DSA redčena pozornost | Eksplozivni izračuni za 128K dolg kontekst | Dinamično izbira pomembne tokene, preskoči nepovezane, prihrani 1.5-2 krat računske moči | | Asinhroni okvir ojačevalnega učenja | Veliko prostega GPU pri usposabljanju dolgih nalog RL | Generiranje in usposabljanje sta popolnoma ločena, paralelno v tekočem traku | | Večstopenjski postopek po usposabljanju | Težko usklajevanje več sposobnosti, kot so sklepanje, kodiranje, agent | SFT → sklepanje RL → agent RL → splošni RL, postopno dodajanje sposobnosti |

Arhitektura modela: "odštevanje" na osnovi MoE

Osnovna konfiguracija

GLM-5 uporablja arhitekturo Mešanica strokovnjakov (MoE), skupno število parametrov je 744B, vendar se ob vsakem sklepanju aktivira le približno 40B parametrov. Ta "velik in redek" dizajn je že postal industrijski konsenz - DeepSeek-V3/R1, Qwen3 so šli po podobni poti.

Kako DSA pravzaprav deluje?

Osnovna ideja DSA se lahko razume s pomočjo metafore: predstavljajte si, da iščete gradivo v knjižnici. Standardna pozornost je kot da bi prelistali vsako knjigo v knjižnici in se odločili, katere so uporabne. DSA pa je bolj podoben izkušenemu knjižničarju - najprej hitro pregleda naslove na policah s pomočjo bliskovitega indeksatorja (Lightning Index), da določi nekaj potencialno povezanih območij, nato pa natančno prebere le specifične odstavke v teh območjih.

Postopek usposabljanja: štiristopenjski "napredovanje"

Postopek usposabljanja GLM-5 je osrednji del te raziskave, razdeljen je na predusposabljanje in po usposabljanju.

Faza predusposabljanja

Obseg podatkov: 27T tokenov, razmerje mešanice podatkov vključuje spletne strani, kodo, akademske članke, knjige itd.
Razširitev konteksta: postopno širjenje konteksta iz 4K na 200K med srednjim usposabljanjem, z uporabo RoPE frekvenčnega prilagajanja.
Faza žganja: na koncu predusposabljanja z bolj kakovostnimi podatki opravi "fino nastavitev".

Štiri korake po usposabljanju

To je najbolj značilen del GLM-5. GLM-5 je izvedel štiri kroge:

Nadzorovano fino nastavitev (SFT) z visokokakovostnimi podatki o navodilih.
Ojačevalno učenje sklepanja (Reasoning RL) na nalogah matematičnega in kodnega sklepanja.
Ojačevalno učenje agenta (Agentic RL), kar je ključna inovacija.
Splošno ojačevalno učenje (General RL) na širšem spektru splošnih nalog.

Asinhrono ojačevalno učenje: da GPU ne "lenarijo"

Tradicionalno ojačevalno učenje je sinhrono: zberite serijo podatkov → izračunajte nagrado → posodobite model → ponovno zberite. To deluje brez težav pri kratkih nalogah, vendar naloge agentov pogosto zahtevajo desetine interakcij.

Globoka razlaga rezultatov eksperimentov

Glavne primerjalne osnove

| Osnova | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Zaključek

Raziskava GLM-5 vsebuje veliko informacij. Ne glede na konkretne številke, je ključna informacija, ki jo prenaša: naslednje bojišče velikih modelov je "opravljanje dela", ne le "odgovarjanje na vprašanja".

Na konkurenčni ravni GLM-5 dokazuje konkurenčnost kitajskih AI ekip na področju raziskav velikih modelov.

Informacije o raziskavi

Naslov: GLM-5: od Vibe Coding do Agentic Engineering
Organizacija: ZhiPu AI & Tsinghua University
Povezava: https://arxiv.org/abs/2602.15763

GLM-5: Ko veliki modeli naučijo "sami pisati kodo", prehod od Vibe Coding do Agentic Engineering

GLM-5: Ko veliki modeli naučijo "sami pisati kodo", prehod od Vibe Coding do Agentic Engineering

Zakaj potrebujemo to raziskavo?

Ključni prispevek: tri glavne inovacije

Arhitektura modela: "odštevanje" na osnovi MoE

Osnovna konfiguracija

Kako DSA pravzaprav deluje?

Postopek usposabljanja: štiristopenjski "napredovanje"

Faza predusposabljanja

Štiri korake po usposabljanju

Asinhrono ojačevalno učenje: da GPU ne "lenarijo"

Globoka razlaga rezultatov eksperimentov

Glavne primerjalne osnove

Zaključek

Informacije o raziskavi

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian je predstavil Defuddle, ki je Obsidian Web Clipper dvignil na novo raven

OpenAI nenadoma napoveduje "tri v enem": združitev brskalnika + programiranja + ChatGPT, notranje priznanje, da so v preteklem letu zgrešili pot

2026, ne silite se več v 'discipliniranost'! Poskrbite za teh 8 malenkosti, zdravje bo prišlo naravno

Tiste mame, ki se trudijo shujšati, a jim ne uspe, so zagotovo tukaj naletele na težave

AI Browser 24-urna stabilna delovna navodila