GLM-5: Keď veľké modely naučia "písať kód samy", prechod od Vibe Coding k Agentic Engineering
GLM-5: Keď veľké modely naučia "písať kód samy", prechod od Vibe Coding k Agentic Engineering
❝
🎯 Jednoduché zhrnutie: Zhizhu AI v spolupráci s Tsinghua University uviedli model GLM-5 s 744B parametrami, ktorý pomocou DeepSeek Sparse Attention (DSA) znižuje výpočtovú náročnosť pozornosti, pomocou plne asynchrónneho posilňovacieho učenia (Async RL) zlepšuje efektivitu dlhého tréningu úloh a prostredníctvom viacfázového procesu po tréningu umožňuje veľkým modelom prejsť od "atmosférického kódovania" (Vibe Coding) k "inteligentnému inžinierstvu" (Agentic Engineering), ktoré dokáže samostatne dokončiť skutočné inžinierske projekty.
Prečo potrebujeme tento článok?
Andrej Karpathy na začiatku roku 2025 predstavil zaujímavý koncept - Vibe Coding, čo znamená, že stačí opísať požiadavky v prirodzenom jazyku a "na pocit" nechať AI napísať kód. Toto je skutočne súčasná hlavná skúsenosť s AI programovaním: poviete vetu a model vám vygeneruje kód, pričom výsledok závisí od šťastia.
Ale problém je tu: skutočné softvérové inžinierstvo nie je len o "písaní kódu". Skutočný inžinier musí rozumieť architektúre projektu, odstraňovať chyby, spravovať závislosti, riešiť spoluprácu medzi modulmi - to všetko nie je možné vyriešiť "jedným promptom". Cieľom tejto práce GLM-5 je premeniť model z "asistenta, ktorý vám píše kód" na "inžiniera, ktorý dokáže samostatne zvládnuť celý projekt".
To nie je malý cieľ. Aby ho dosiahli, tím Zhizhu vykonal množstvo inovácií v architektúre modelu, tréningových procesoch a algoritmoch posilňovacieho učenia. Tento článok vás prevedie týmito technickými detailmi.
Hlavný prínos: Tri kľúčové prístupy
Predtým, než sa ponoríme do detailov, ujasnime si tri hlavné prínosy GLM-5:
Prínos Riešený problém Hlavná myšlienka DSA Sparse Attention Explozívne výpočtové náklady na 128K dlhý kontext Dynamicky vyberá dôležité tokeny, preskočí irelevantné, šetrí 1.5-2x výpočtovú silu Asynchrónny rámec posilňovacieho učenia Veľa nevyužitých GPU v dlhých úlohách Generovanie a tréning sú úplne oddelené, paralelné v potrubí Viacfázový proces po tréningu Ťažko sa vyrovnáva s viacerými schopnosťami ako sú inferencia, kódovanie, inteligentné agenti SFT → inferenčné RL → agentové RL → všeobecné RL, postupne pridáva schopnosti
Architektúra modelu: Robíme "odpočty" na kostre MoE
Základná konfigurácia
GLM-5 používa architektúru Mixture-of-Experts (MoE), celkový počet parametrov je 744B, ale pri každej inferencii sa aktivuje iba približne 40B parametrov. Tento "veľký a riedky" dizajn sa stal priemyselným konsenzom - DeepSeek-V3/R1, Qwen3 sa vydali podobnou cestou.
Ako vlastne funguje DSA?
Jadro myšlienky DSA môžeme pochopiť pomocou metafory: predstavte si, že hľadáte materiály v knižnici. Štandardná pozornosť je ako prelistovanie každej knihy v celej knižnici a rozhodovanie, ktoré sú užitočné. Na druhej strane DSA je skôr ako skúsený knihovník - najprv rýchlo prehľadá názvy kníh pomocou Lightning Index, zameria sa na niekoľko potenciálne relevantných oblastí a potom si prečíta konkrétne odseky v týchto oblastiach.
Tréningový proces: Štyri fázy "levelovania"
Tréningový proces GLM-5 je hlavnou časťou tohto článku, rozdelený na predtréning a po tréningu.
Predtréningová fáza
- Veľkosť dát: 27T tokenov, zloženie dát zahŕňa webové stránky, kód, akademické články, knihy atď.
- Rozšírenie kontextu: Postupne rozširuje kontext z 4K na 200K prostredníctvom stredného tréningu, používa RoPE na úpravu frekvencie.
- Fáza žíhania: Na konci predtréningu sa používajú kvalitnejšie dáta na "dokončenie".
Štyri kroky po tréningu
Toto je najvýraznejšia časť GLM-5. GLM-5 prešiel štyrmi kolami:
- Supervised Fine-Tuning (SFT), doladenie s kvalitnými inštrukčnými dátami.
- Reasoning Reinforcement Learning (Reasoning RL), posilňovacie učenie na úlohách matematického a kódového uvažovania.
- Agentic Reinforcement Learning (Agentic RL), čo je kľúčová inovácia.
- General Reinforcement Learning (General RL), posilňovacie učenie na širších všeobecných úlohách.
Asynchrónne posilňovacie učenie: Nechajte GPU prestať "len tak byť"
Tradičné posilňovacie učenie je synchronné: zhromažďovanie dávky dát → výpočet odmien → aktualizácia modelu → opätovné zhromažďovanie. To nie je problém v prípade krátkych úloh, ale úlohy inteligentných agentov často vyžadujú desiatky interakcií.
Hlboká analýza experimentálnych výsledkov
Hlavné porovnanie benchmarkov
Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9
Zhrnutie
Informácie v článku GLM-5 sú veľmi rozsiahle. Nezohľadňujúc konkrétne čísla, hlavná informácia, ktorú prenáša, je: ďalšie bojisko veľkých modelov je "pracovať" a nie len "odpovedať na otázky".
Na konkurenčnej úrovni GLM-5 dokazuje konkurencieschopnosť čínskeho AI tímu v predných výskumoch veľkých modelov.
Informácie o článku
- Názov: GLM-5: od Vibe Coding po Agentic Engineering
- Inštitúcia: Zhizhu AI & Tsinghua University
- Odkaz: https://arxiv.org/abs/2602.15763

