GLM-5: Když se velké modely naučí "psát kód samy", skok od Vibe Coding k Agentic Engineering
GLM-5: Když se velké modely naučí "psát kód samy", skok od Vibe Coding k Agentic Engineering
❝
🎯 Jednoduché shrnutí: Zhizhu AI ve spolupráci s Tsinghua University představuje model GLM-5 s 744B parametry, který pomocí DeepSeek Sparse Attention (DSA) snižuje výpočetní nároky na pozornost, pomocí plně asynchronního posilovacího učení (Async RL) zvyšuje efektivitu trénování dlouhých úloh a díky vícestupňovému procesu po trénování umožňuje velkým modelům evolvovat z "Vibe Coding" na "Agentic Engineering", schopné samostatně realizovat skutečné inženýrské projekty.
Proč je tento článek důležitý?
Andrej Karpathy na začátku roku 2025 představil zajímavý koncept - Vibe Coding, což znamená, že stačí popsat požadavek v přirozeném jazyce a "cítit" to, aby AI napsala kód. To je skutečně současná hlavní zkušenost s AI programováním: řeknete větu a model vám vygeneruje kus kódu, jak dobře to dopadne, závisí na štěstí.
Ale problém je: skutečné softwarové inženýrství není jen o "psaní kódu". Skutečný inženýr musí rozumět architektuře projektu, ladit chyby, spravovat závislosti, řešit spolupráci mezi moduly - to všechno není něco, co by se dalo vyřešit "jedním promptem na kód". Cílem této práce GLM-5 je přetvořit model z "asistenta, který vám píše kód" na "inženýra, který dokáže samostatně zvládnout celý projekt".
To není malý cíl. Aby ho dosáhli, tým Zhizhu provedl řadu inovací v architektuře modelu, tréninkových procesech a algoritmech posilovacího učení. Tento rozbor vás provede těmito technickými detaily.
Hlavní přínos: Tři klíčové přístupy
Předtím, než se ponoříme do detailů, ujasněme si tři hlavní přínosy GLM-5:
Přínos řešící problém | Klíčový přístup DSA Sparse Attention | Explozivní výpočetní nároky pro 128K dlouhý kontext, dynamicky vybírá důležité tokeny, přeskočí irelevantní, šetří 1.5-2x výpočetní výkon Asynchronní posilovací učení | V dlouhých úlohách RL trénink GPU zůstává často nevyužitý, generování a trénink jsou zcela oddělené, paralelní v pipeline Vícefázový proces po trénování | Těžko se vyrovnat s více schopnostmi jako je inferování, kódování, agenti, SFT → inferenční RL → agentní RL → obecné RL, postupně přidávat schopnosti
Architektura modelu: Dělat "subtrakci" na základě MoE
Základní konfigurace
GLM-5 používá architekturu Mixture-of-Experts (MoE), celkový počet parametrů je 744B, ale při každém inferování se aktivuje pouze přibližně 40B parametrů. Tento "velký a řídký" design se stal průmyslovým konsensem - DeepSeek-V3/R1, Qwen3 šly podobnou cestou.
Jak DSA vlastně funguje?
Jádro myšlenky DSA lze pochopit pomocí metafory: představte si, že hledáte materiály v knihovně. Standardní pozornost je jako procházení každé knihy v celé knihovně a rozhodování, které jsou užitečné. Naopak DSA je spíše jako zkušený knihovník - nejprve rychle prohledá názvy na regálech pomocí Lightning Index, zaměří se na několik možná relevantních oblastí a poté se zaměří pouze na konkrétní odstavce v těchto oblastech.
Tréninkový proces: Čtyřfázový "level-up"
Tréninkový proces GLM-5 je hlavním bodem této práce, dělí se na dvě hlavní fáze: předtrénink a po-trénink.
Předtréninková fáze
- Množství dat: 27T tokenů, poměr dat zahrnuje webové stránky, kód, akademické články, knihy atd.
- Rozšíření kontextu: postupné rozšiřování kontextu z 4K na 200K během středního trénování, použití úpravy frekvence RoPE
- Fáze žíhání: na konci předtrénování se používají kvalitnější data pro "jemné ladění"
Čtyři kroky po trénování
To je nejvýraznější část GLM-5. GLM-5 provedlo čtyři kola:
- Supervised Fine-Tuning (SFT) s vysokokvalitními daty pro pokyny.
- Reasoning Reinforcement Learning (Reasoning RL) provádí RL trénink na úlohách matematického a kódového uvažování.
- Agentic Reinforcement Learning (Agentic RL), což je klíčová inovace.
- General Reinforcement Learning (General RL), provádí RL na širších obecných úlohách.
Asynchronní posilovací učení: Aby GPU už "neflákaly"
Tradiční trénink RL je synchronní: shromáždění dat → výpočet odměny → aktualizace modelu → opětovné shromáždění. To není problém v případě krátkých úloh, ale úkoly agentů často vyžadují desítky interakcí.
Hluboká analýza experimentálních výsledků
Hlavní srovnání benchmarků
Benchmark | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro 78.0 | 75.9 | 78.0 | 74.3 | 76.1 GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9
Shrnutí
Práce GLM-5 obsahuje velké množství informací. Nezáleží na konkrétních číslech, hlavní sdělení, které přenáší, je: další bitevní pole velkých modelů je "práce" a ne jen "odpovídání na otázky".
Z pohledu konkurence GLM-5 dokazuje konkurenceschopnost čínských AI týmů v oblasti výzkumu velkých modelů.
Informace o práci
- Název: GLM-5: from Vibe Coding to Agentic Engineering
- Instituce: Zhizhu AI & Tsinghua University
- Odkaz: https://arxiv.org/abs/2602.15763

