GLM-5: Kada veliki modeli nauče "sami pisati kod", prelazak od Vibe Coding do Agentic Engineering

2/26/2026
4 min read

GLM-5: Kada veliki modeli nauče "sami pisati kod", prelazak od Vibe Coding do Agentic Engineering

🎯 Jedna rečenica sažetak: Zhizhu AI u saradnji sa Tsinghua univerzitetom predstavio je GLM-5 model sa 744B parametara, koristeći DeepSeek Sparse Attention (DSA) za smanjenje računske moći pažnje, potpuno asinkrono pojačano učenje (Async RL) za poboljšanje efikasnosti obuke dugih zadataka, kao i višestepeni proces obuke, omogućavajući velikim modelima da evoluiraju od "Vibe Coding" do "Agentic Engineering" koji može samostalno završiti stvarne inženjerske projekte.

Zašto je ovaj rad važan?

Andrej Karpathy je početkom 2025. godine predstavio zanimljivu ideju - Vibe Coding, što znači da jednostavno treba opisati zahteve prirodnim jezikom i "na osnovu osećaja" pustiti AI da piše kod. Ovo je zaista trenutna mainstream iskustva u AI programiranju: kažete rečenicu, model vam pomaže da generišete deo koda, a kako će to ispasti zavisi od sreće.

Ali problem je u tome: pravi softverski inženjering nije samo "pisanje koda". Pravi inženjer mora razumeti arhitekturu projekta, otklanjati greške, upravljati zavisnostima, obrađivati saradnju između modula - sve to nije nešto što se može rešiti "jednom promptom za jedan deo koda". Ovaj rad o GLM-5 ima za cilj da model pretvori iz "pomoćnika koji piše kod" u "inženjera koji može samostalno završiti ceo projekat".

Ovo nije mali cilj. Da bi ga postigli, Zhizhu tim je napravio brojne inovacije u arhitekturi modela, procesu obuke i algoritmima pojačanog učenja. Ova analiza će vas provesti kroz tehničke detalje.

Ključni doprinos: tri glavna stuba

Pre nego što se upustimo u detalje, hajde da razjasnimo tri ključna doprinosa GLM-5:

Doprinos rešenju problema | Ključna ideja DSA Sparse Attention | Računski troškovi 128K dugog konteksta eksplodiraju, dinamički birajući važne tokene, preskočivši irelevantne, štedeći 1.5-2 puta računske resurse Asinkroni okvir pojačanog učenja | U dugim RL treninzima GPU-ovi su često neiskorišćeni, generisanje i obuka su potpuno odvojeni, paralelno u pipeline-u Višestepeni proces obuke | Teško je balansirati više sposobnosti kao što su inferencija, kodiranje, agenti, itd. SFT → inferencija RL → agent RL → opšti RL, postepeno dodavanje sposobnosti

Arhitektura modela: "oduzimanje" na osnovu MoE

Osnovna konfiguracija

GLM-5 koristi Mixture-of-Experts (MoE) arhitekturu, ukupno 744B parametara, ali tokom svake inferencije aktivira samo oko 40B parametara. Ovaj "veliki i retki" dizajn postao je industrijski konsenzus - DeepSeek-V3/R1, Qwen3 su krenuli sličnim putem.

Kako DSA zapravo funkcioniše?

Osnovna ideja DSA može se razumeti kroz metaforu: zamislite da tražite informacije u biblioteci. Standardna pažnja je kao da prelistavate svaku knjigu u biblioteci i odlučujete koje su korisne. Dok DSA više liči na iskusnog bibliotekara - prvo koristi Lightning Index da brzo skenira naslove na policama, identifikuje nekoliko potencijalno relevantnih oblasti, a zatim samo pažljivo čita konkretne odlomke u tim oblastima.

Proces obuke: četverostepeni "napredak"

Proces obuke GLM-5 je glavni deo ovog rada, podeljen je na predobuku i naknadnu obuku.

Faza predobuke

  • Obim podataka: 27T tokena, mešavina podataka uključuje web stranice, kod, akademske radove, knjige itd.
  • Proširenje konteksta: kroz srednju obuku kontekst se postepeno proširuje sa 4K na 200K, koristeći RoPE frekvencijsku prilagodbu.
  • Faza anestezije: na kraju predobuke koristi se podaci više kvalitete za "fino podešavanje".

Četiri koraka naknadne obuke

Ovo je najkarakterističniji deo GLM-5. GLM-5 je prošao kroz četiri runde:

  • Nadzor mikro podešavanja (SFT) koristi visoko kvalitetne instrukcijske podatke za fino podešavanje.
  • Inferencijsko pojačano učenje (Reasoning RL) se sprovodi na matematičkim i kodnim zadacima.
  • Agentno pojačano učenje (Agentic RL), što je ključna inovacija.
  • Opšte pojačano učenje (General RL), na širem spektru opštih zadataka.

Asinkrono pojačano učenje: da GPU više ne "lenčari"

Tradicionalno RL učenje je sinkrono: prikupljanje skupa podataka → izračunavanje nagrade → ažuriranje modela → ponovo prikupljanje. Ovo nije problem u slučaju kratkih vremenskih zadataka, ali agentni zadaci često zahtevaju desetine interakcija.

Dubinska analiza rezultata eksperimenata

Glavne komparativne osnove

Osnova | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | GPQA-Diamond 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | BrowseComp 57.1 | 32.0 | 26.3 | 25.1 | 46.9

Zaključak

Informacije u radu o GLM-5 su veoma bogate. Odbacujući konkretne brojeve, osnovna poruka koju prenosi je: sledeće bojno polje velikih modela je "raditi" a ne samo "odgovarati na pitanja".

Na konkurentskom nivou, GLM-5 dokazuje konkurentnost kineskog AI tima u istraživanju na granici velikih modela.

Informacije o radu

Published in Technology

You Might Also Like