GLM-5: Kada veliki modeli nauče da "pišu kod sami", prelazak od Vibe Coding do Agentic Engineering

❝

🎯 Jedna rečenica sažetak: Zhiyu AI u saradnji sa Tsinghua univerzitetom predstavio je GLM-5 model sa 744B parametara, koristeći DeepSeek Sparse Attention (DSA) za smanjenje računske moći pažnje, potpuno asinkrono pojačano učenje (Async RL) za rešavanje efikasnosti obuke dugih zadataka, kao i višestepeni proces obuke, omogućavajući velikim modelima da evoluiraju od "Vibe Coding" do "Agentic Engineering" koji može samostalno završiti stvarne inženjerske projekte.

Zašto je potrebno ovo istraživanje?

Andrej Karpathy je početkom 2025. godine predstavio zanimljivu ideju - Vibe Coding, što znači da jednostavno treba da opišete zahteve na prirodnom jeziku i "na osnovu osećaja" pustite AI da piše kod. Ovo je zaista trenutna mainstream iskustva u AI programiranju: kažete rečenicu, model vam pomaže da generišete deo koda, a kako će to ispasti zavisi od sreće.

Ali problem je u tome: pravi softverski inženjering nije tako jednostavan kao "pisanje koda". Pravi inženjer treba da razume arhitekturu projekta, debaguje greške, upravlja zavisnostima, obrađuje saradnju između modula - sve to nije nešto što se može rešiti "jednom promptom za deo koda". Cilj GLM-5 ovog istraživanja je da model pretvori iz "pomoćnika koji piše kod" u "inženjera koji može samostalno da reši ceo projekat".

Ovo nije mali cilj. Da bi se to postiglo, Zhiyu tim je napravio brojne inovacije u arhitekturi modela, procesu obuke i algoritmima pojačanog učenja. Ova analiza će vas provesti kroz ove tehničke detalje.

Ključni doprinos: tri glavne tačke

Pre nego što uđemo u detalje, prvo razjasnimo tri ključna doprinosa GLM-5:

Doprinos rešenju problema Ključna ideja DSA retka pažnja 128K duga kontekstualna računarska potrošnja eksplozivna dinamička selekcija važnih tokena, preskočite irelevantne, uštedite 1.5-2 puta računske moći Asinkroni okvir pojačanog učenja dugotrajna RL obuka sa puno slobodnog GPU-a generisanje i obuka potpuno odvojeni, paralelno u liniji Višestepeni proces obuke teško je uskladiti više sposobnosti kao što su inferencija, kodiranje, agenti SFT→inferencija RL→agent RL→opšti RL, postepeno dodavanje sposobnosti

Arhitektura modela: "oduzimanje" na osnovu MoE

Osnovna konfiguracija

GLM-5 koristi Mixture-of-Experts (MoE) arhitekturu, ukupno 744B parametara, ali tokom svake inferencije aktivira se samo oko 40B parametara. Ovaj dizajn "velik i redak" postao je industrijski konsenzus - DeepSeek-V3/R1, Qwen3 su sledili sličan put.

Kako DSA zapravo funkcioniše?

Osnovna ideja DSA može se razumeti kroz metaforu: zamislite da tražite materijal u biblioteci. Standardna pažnja je kao da prelistavate svaku knjigu u biblioteci, a zatim odlučujete koje su korisne. Dok DSA više liči na iskusnog bibliotekara - prvo koristi munjeviti indeks (Lightning Index) da brzo skenira naslove na policama, identifikuje nekoliko potencijalno relevantnih oblasti, a zatim samo pažljivo čita konkretne odlomke u tim oblastima.

Proces obuke: četverostepeni "level-up"

Proces obuke GLM-5 je glavni deo ovog istraživanja, podeljen je na predobuku i naknadnu obuku.

Faza predobuke

Obim podataka: 27T tokena, proporcija podataka uključuje veb stranice, kod, akademske radove, knjige itd.
Proširenje konteksta: kroz srednju obuku kontekst se postepeno proširuje sa 4K na 200K, koristeći RoPE frekvencijsku prilagodbu.
Faza anestezije: na kraju predobuke koristi se kvalitetniji podaci za "fino podešavanje".

Četiri koraka naknadne obuke

Ovo je najkarakterističniji deo GLM-5. GLM-5 je prošao kroz četiri runde:

Supervizirano fino podešavanje (SFT) koristi visokokvalitetne podatke za instrukcije za fino podešavanje.
Inferencijsko pojačano učenje (Reasoning RL) vrši RL obuku na matematičkim i kodnim inferencijskim zadacima.
Agentno pojačano učenje (Agentic RL), ovo je ključna inovacija.
Opšte pojačano učenje (General RL), vrši RL na širem spektru opštih zadataka.

Asinkrono pojačano učenje: da GPU više ne "lenčari"

Tradicionalna RL obuka je sinkrona: prikupljanje serije podataka → izračunavanje nagrade → ažuriranje modela → ponovo prikupljanje. Ovo nije problem u slučaju kratkih vremenskih zadataka, ali agentni zadaci često zahtevaju desetine koraka interakcije.

Dubinska analiza rezultata eksperimenata

Glavne uporedne osnove

Osnova GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9

Zaključak

Informacije iz GLM-5 ovog istraživanja su veoma bogate. Odbacujući konkretne brojeve, ključna poruka koju prenosi je: sledeće bojno polje velikih modela je "raditi" a ne samo "odgovarati na pitanja".

Na takmičarskom nivou, GLM-5 dokazuje konkurentnost kineskog AI tima u istraživanju na ivici velikih modela.

Informacije o istraživanju

Naslov: GLM-5: od Vibe Coding do Agentic Engineering
Organizacija: Zhiyu AI & Tsinghua univerzitet
Link: https://arxiv.org/abs/2602.15763

GLM-5: Kada veliki modeli nauče da "pišu kod sami", prelazak od Vibe Coding do Agentic Engineering

GLM-5: Kada veliki modeli nauče da "pišu kod sami", prelazak od Vibe Coding do Agentic Engineering

Zašto je potrebno ovo istraživanje?

Ključni doprinos: tri glavne tačke

Arhitektura modela: "oduzimanje" na osnovu MoE

Osnovna konfiguracija

Kako DSA zapravo funkcioniše?

Proces obuke: četverostepeni "level-up"

Faza predobuke

Četiri koraka naknadne obuke

Asinkrono pojačano učenje: da GPU više ne "lenčari"

Dubinska analiza rezultata eksperimenata

Glavne uporedne osnove

Zaključak

Informacije o istraživanju

You Might Also Like

Claude Code Buddy модификација: Како добити сјајног легендарног љубимца

Obsidian je lansirao Defuddle, podigao Obsidian Web Clipper na novi nivo

OpenAI iznenada najavljuje "tri u jednom": spajanje pretraživača + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogrešili

2026, ne prisiljavajte se na "disciplinu"! Uradite ovih 8 malih stvari, zdravlje će doći prirodno

One of the reasons why mothers who work hard to lose weight can't succeed is definitely here

AI Browser 24-сатна стабилна операција