GLM-5: kada veliki modeli nauče "sami pisati kod", prijelaz od Vibe Codinga do Agentic Engineeringa

2/26/2026
4 min read

GLM-5: kada veliki modeli nauče "sami pisati kod", prijelaz od Vibe Codinga do Agentic Engineeringa

🎯 Jedna rečenica sažetak: Zhiyu AI u suradnji s Tsinghua sveučilištem predstavio je GLM-5 model s 744B parametara, koristeći DeepSeek Sparse Attention (DSA) za smanjenje računske složenosti pažnje, potpuno asinkrono pojačano učenje (Async RL) za poboljšanje učinkovitosti dugih zadataka, te višestepeni proces nakon obuke, omogućujući velikim modelima evoluciju od "Vibe Codinga" do "Agentic Engineeringa" koji može samostalno završiti stvarne inženjerske projekte.

Zašto je potrebno ovo istraživanje?

Andrej Karpathy je početkom 2025. godine predstavio zanimljivu ideju - Vibe Coding, što znači da jednostavno trebate opisati zahtjeve na prirodnom jeziku, "osjećajući" da AI piše kod. Ovo je zaista trenutna mainstream iskustva u AI programiranju: kažete rečenicu, model vam generira dio koda, a kvaliteta ovisi o sreći.

Ali problem je: stvarno softversko inženjerstvo nije tako jednostavno kao "pisanje koda". Pravi inženjer treba razumjeti arhitekturu projekta, otkloniti greške, upravljati ovisnostima, rješavati suradnju između modula - to su stvari koje se ne mogu riješiti "jednom promptom koji generira kod". Cilj GLM-5 ovog istraživanja je da model postane "asistent koji vam pomaže pisati kod" u "inženjera koji može samostalno završiti cijeli projekt".

To nije mali cilj. Da bi ga postigao, tim Zhiyu je napravio brojne inovacije u arhitekturi modela, procesu obuke i algoritmima pojačanog učenja. Ova analiza će vas provesti kroz te tehničke detalje.

Ključni doprinos: tri glavne inovacije

Prije nego što zaronimo u detalje, razjasnimo tri ključna doprinosa GLM-5:

Doprinos rješava problem osnovna ideja DSA rijetka pažnja 128K dugačak kontekst računski trošak eksplodira dinamički odabir važnih tokena, preskočite nebitne, uštedite 1.5-2 puta računalne snage asinkroni okvir pojačanog učenja dugotrajna RL obuka GPU-ovi su često neiskorišteni generiranje i obuka potpuno odvojeni, paralelno u pipeline-u višestepeni proces nakon obuke inferencija, kodiranje, agenti i druge sposobnosti teško je uskladiti SFT→inferencija RL→agent RL→opći RL, postupno dodavanje sposobnosti

Arhitektura modela: "oduzimanje" na osnovi MoE

Osnovna konfiguracija

GLM-5 koristi Mixture-of-Experts (MoE) arhitekturu, ukupno 744B parametara, ali tijekom svake inferencije aktivira samo oko 40B parametara. Ovaj "velik i rijedak" dizajn postao je industrijski konsenzus - DeepSeek-V3/R1, Qwen3 su slijedili sličan put.

Kako DSA zapravo radi?

Osnovna ideja DSA može se razumjeti kroz metaforu: zamislite da tražite informacije u knjižnici. Standardna pažnja je kao da prelistavate svaku knjigu u cijeloj knjižnici, a zatim odlučujete koje su korisne. Dok DSA više nalikuje iskusnom knjižničaru - prvo koristi munjeviti indeks (Lightning Index) za brzo skeniranje naslova na policama, fokusirajući se na nekoliko potencijalno relevantnih područja, a zatim samo pažljivo čita konkretne odlomke unutar tih područja.

Proces obuke: četverostupanjski "napredak"

Proces obuke GLM-5 je glavni fokus ovog istraživanja, podijeljen u predobuku i nakonobuku.

Faza predobuke

  • Veličina podataka: 27T tokena, omjer podataka uključuje web stranice, kod, akademske radove, knjige itd.
  • Proširenje konteksta: kroz srednju obuku postupno proširiti kontekst s 4K na 200K, koristeći RoPE prilagodbu frekvencije
  • Faza anestezije: na kraju predobuke koristiti podatke više kvalitete za "fino podešavanje"

Četiri koraka nakon obuke

Ovo je najkarakterističniji dio GLM-5. GLM-5 je prošao kroz četiri runde:

  • Nadzorano fino podešavanje (SFT) koristi visoko kvalitetne podatke za upute za fino podešavanje.
  • Pojačano učenje inferencije (Reasoning RL) provodi RL obuku na matematičkim i kodnim zadacima.
  • Pojačano učenje agenta (Agentic RL), što je ključna inovacija.
  • Opće pojačano učenje (General RL), provodi RL na širem spektru općih zadataka.

Asinkrono pojačano učenje: da GPU više ne "ne radi"

Tradicionalna RL obuka je sinkrona: prikupljanje skupa podataka → izračunavanje nagrade → ažuriranje modela → ponovno prikupljanje. Ovo nije problem u situacijama s kratkim vremenom zadatka, ali zadaci agenta često zahtijevaju desetke interakcija.

Dubinska analiza rezultata eksperimenta

Glavne usporedbe standarda

Standard GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

Zaključak

GLM-5 ovo istraživanje sadrži mnogo informacija. Odbacujući konkretne brojke, osnovna poruka koju prenosi je: sljedeće bojno polje velikih modela je "raditi" a ne samo "odgovarati na pitanja".

Na razini konkurencije, GLM-5 dokazuje konkurentnost kineskog AI tima u istraživanju na rubu velikih modela.

Informacije o radu

Published in Technology

You Might Also Like