GLM-5: Když se velké modely naučí "psát kód samy", skok od Vibe Coding k Agentic Engineering

2/26/2026
4 min read

GLM-5: Když se velké modely naučí "psát kód samy", skok od Vibe Coding k Agentic Engineering

🎯 Jednoduché shrnutí: Zhizhu AI ve spolupráci s Tsinghua University představuje model GLM-5 s 744B parametry, který pomocí DeepSeek Sparse Attention (DSA) snižuje výpočetní nároky na pozornost, pomocí plně asynchronního posilovacího učení (Async RL) zvyšuje efektivitu trénování dlouhých úloh a díky vícestupňovému procesu po trénování umožňuje velkým modelům evolvovat z "Vibe Coding" na "Agentic Engineering", schopné samostatně realizovat skutečné inženýrské projekty.

Proč je tento článek důležitý?

Andrej Karpathy na začátku roku 2025 představil zajímavý koncept - Vibe Coding, což znamená, že stačí popsat požadavek v přirozeném jazyce a "cítit" to, aby AI napsala kód. To je skutečně současná hlavní zkušenost s AI programováním: řeknete větu a model vám vygeneruje kus kódu, jak dobře to dopadne, závisí na štěstí.

Ale problém je: skutečné softwarové inženýrství není jen o "psaní kódu". Skutečný inženýr musí rozumět architektuře projektu, ladit chyby, spravovat závislosti, řešit spolupráci mezi moduly - to všechno není něco, co by se dalo vyřešit "jedním promptem na kód". Cílem této práce GLM-5 je přetvořit model z "asistenta, který vám píše kód" na "inženýra, který dokáže samostatně zvládnout celý projekt".

To není malý cíl. Aby ho dosáhli, tým Zhizhu provedl řadu inovací v architektuře modelu, tréninkových procesech a algoritmech posilovacího učení. Tento rozbor vás provede těmito technickými detaily.

Hlavní přínos: Tři klíčové přístupy

Předtím, než se ponoříme do detailů, ujasněme si tři hlavní přínosy GLM-5:

Přínos řešící problém | Klíčový přístup DSA Sparse Attention | Explozivní výpočetní nároky pro 128K dlouhý kontext, dynamicky vybírá důležité tokeny, přeskočí irelevantní, šetří 1.5-2x výpočetní výkon Asynchronní posilovací učení | V dlouhých úlohách RL trénink GPU zůstává často nevyužitý, generování a trénink jsou zcela oddělené, paralelní v pipeline Vícefázový proces po trénování | Těžko se vyrovnat s více schopnostmi jako je inferování, kódování, agenti, SFT → inferenční RL → agentní RL → obecné RL, postupně přidávat schopnosti

Architektura modelu: Dělat "subtrakci" na základě MoE

Základní konfigurace

GLM-5 používá architekturu Mixture-of-Experts (MoE), celkový počet parametrů je 744B, ale při každém inferování se aktivuje pouze přibližně 40B parametrů. Tento "velký a řídký" design se stal průmyslovým konsensem - DeepSeek-V3/R1, Qwen3 šly podobnou cestou.

Jak DSA vlastně funguje?

Jádro myšlenky DSA lze pochopit pomocí metafory: představte si, že hledáte materiály v knihovně. Standardní pozornost je jako procházení každé knihy v celé knihovně a rozhodování, které jsou užitečné. Naopak DSA je spíše jako zkušený knihovník - nejprve rychle prohledá názvy na regálech pomocí Lightning Index, zaměří se na několik možná relevantních oblastí a poté se zaměří pouze na konkrétní odstavce v těchto oblastech.

Tréninkový proces: Čtyřfázový "level-up"

Tréninkový proces GLM-5 je hlavním bodem této práce, dělí se na dvě hlavní fáze: předtrénink a po-trénink.

Předtréninková fáze

  • Množství dat: 27T tokenů, poměr dat zahrnuje webové stránky, kód, akademické články, knihy atd.
  • Rozšíření kontextu: postupné rozšiřování kontextu z 4K na 200K během středního trénování, použití úpravy frekvence RoPE
  • Fáze žíhání: na konci předtrénování se používají kvalitnější data pro "jemné ladění"

Čtyři kroky po trénování

To je nejvýraznější část GLM-5. GLM-5 provedlo čtyři kola:

  • Supervised Fine-Tuning (SFT) s vysokokvalitními daty pro pokyny.
  • Reasoning Reinforcement Learning (Reasoning RL) provádí RL trénink na úlohách matematického a kódového uvažování.
  • Agentic Reinforcement Learning (Agentic RL), což je klíčová inovace.
  • General Reinforcement Learning (General RL), provádí RL na širších obecných úlohách.

Asynchronní posilovací učení: Aby GPU už "neflákaly"

Tradiční trénink RL je synchronní: shromáždění dat → výpočet odměny → aktualizace modelu → opětovné shromáždění. To není problém v případě krátkých úloh, ale úkoly agentů často vyžadují desítky interakcí.

Hluboká analýza experimentálních výsledků

Hlavní srovnání benchmarků

Benchmark | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro 78.0 | 75.9 | 78.0 | 74.3 | 76.1 GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9

Shrnutí

Práce GLM-5 obsahuje velké množství informací. Nezáleží na konkrétních číslech, hlavní sdělení, které přenáší, je: další bitevní pole velkých modelů je "práce" a ne jen "odpovídání na otázky".

Z pohledu konkurence GLM-5 dokazuje konkurenceschopnost čínských AI týmů v oblasti výzkumu velkých modelů.

Informace o práci

Published in Technology

You Might Also Like