GLM-5: Keď veľké modely naučia "písať kód samy", prechod od Vibe Coding k Agentic Engineering

2/26/2026
4 min read

GLM-5: Keď veľké modely naučia "písať kód samy", prechod od Vibe Coding k Agentic Engineering

🎯 Jednoduché zhrnutie: Zhizhu AI v spolupráci s Tsinghua University uviedli model GLM-5 s 744B parametrami, ktorý pomocou DeepSeek Sparse Attention (DSA) znižuje výpočtovú náročnosť pozornosti, pomocou plne asynchrónneho posilňovacieho učenia (Async RL) zlepšuje efektivitu dlhého tréningu úloh a prostredníctvom viacfázového procesu po tréningu umožňuje veľkým modelom prejsť od "atmosférického kódovania" (Vibe Coding) k "inteligentnému inžinierstvu" (Agentic Engineering), ktoré dokáže samostatne dokončiť skutočné inžinierske projekty.

Prečo potrebujeme tento článok?

Andrej Karpathy na začiatku roku 2025 predstavil zaujímavý koncept - Vibe Coding, čo znamená, že stačí opísať požiadavky v prirodzenom jazyku a "na pocit" nechať AI napísať kód. Toto je skutočne súčasná hlavná skúsenosť s AI programovaním: poviete vetu a model vám vygeneruje kód, pričom výsledok závisí od šťastia.

Ale problém je tu: skutočné softvérové inžinierstvo nie je len o "písaní kódu". Skutočný inžinier musí rozumieť architektúre projektu, odstraňovať chyby, spravovať závislosti, riešiť spoluprácu medzi modulmi - to všetko nie je možné vyriešiť "jedným promptom". Cieľom tejto práce GLM-5 je premeniť model z "asistenta, ktorý vám píše kód" na "inžiniera, ktorý dokáže samostatne zvládnuť celý projekt".

To nie je malý cieľ. Aby ho dosiahli, tím Zhizhu vykonal množstvo inovácií v architektúre modelu, tréningových procesoch a algoritmoch posilňovacieho učenia. Tento článok vás prevedie týmito technickými detailmi.

Hlavný prínos: Tri kľúčové prístupy

Predtým, než sa ponoríme do detailov, ujasnime si tri hlavné prínosy GLM-5:

Prínos Riešený problém Hlavná myšlienka DSA Sparse Attention Explozívne výpočtové náklady na 128K dlhý kontext Dynamicky vyberá dôležité tokeny, preskočí irelevantné, šetrí 1.5-2x výpočtovú silu Asynchrónny rámec posilňovacieho učenia Veľa nevyužitých GPU v dlhých úlohách Generovanie a tréning sú úplne oddelené, paralelné v potrubí Viacfázový proces po tréningu Ťažko sa vyrovnáva s viacerými schopnosťami ako sú inferencia, kódovanie, inteligentné agenti SFT → inferenčné RL → agentové RL → všeobecné RL, postupne pridáva schopnosti

Architektúra modelu: Robíme "odpočty" na kostre MoE

Základná konfigurácia

GLM-5 používa architektúru Mixture-of-Experts (MoE), celkový počet parametrov je 744B, ale pri každej inferencii sa aktivuje iba približne 40B parametrov. Tento "veľký a riedky" dizajn sa stal priemyselným konsenzom - DeepSeek-V3/R1, Qwen3 sa vydali podobnou cestou.

Ako vlastne funguje DSA?

Jadro myšlienky DSA môžeme pochopiť pomocou metafory: predstavte si, že hľadáte materiály v knižnici. Štandardná pozornosť je ako prelistovanie každej knihy v celej knižnici a rozhodovanie, ktoré sú užitočné. Na druhej strane DSA je skôr ako skúsený knihovník - najprv rýchlo prehľadá názvy kníh pomocou Lightning Index, zameria sa na niekoľko potenciálne relevantných oblastí a potom si prečíta konkrétne odseky v týchto oblastiach.

Tréningový proces: Štyri fázy "levelovania"

Tréningový proces GLM-5 je hlavnou časťou tohto článku, rozdelený na predtréning a po tréningu.

Predtréningová fáza

  • Veľkosť dát: 27T tokenov, zloženie dát zahŕňa webové stránky, kód, akademické články, knihy atď.
  • Rozšírenie kontextu: Postupne rozširuje kontext z 4K na 200K prostredníctvom stredného tréningu, používa RoPE na úpravu frekvencie.
  • Fáza žíhania: Na konci predtréningu sa používajú kvalitnejšie dáta na "dokončenie".

Štyri kroky po tréningu

Toto je najvýraznejšia časť GLM-5. GLM-5 prešiel štyrmi kolami:

  • Supervised Fine-Tuning (SFT), doladenie s kvalitnými inštrukčnými dátami.
  • Reasoning Reinforcement Learning (Reasoning RL), posilňovacie učenie na úlohách matematického a kódového uvažovania.
  • Agentic Reinforcement Learning (Agentic RL), čo je kľúčová inovácia.
  • General Reinforcement Learning (General RL), posilňovacie učenie na širších všeobecných úlohách.

Asynchrónne posilňovacie učenie: Nechajte GPU prestať "len tak byť"

Tradičné posilňovacie učenie je synchronné: zhromažďovanie dávky dát → výpočet odmien → aktualizácia modelu → opätovné zhromažďovanie. To nie je problém v prípade krátkych úloh, ale úlohy inteligentných agentov často vyžadujú desiatky interakcií.

Hlboká analýza experimentálnych výsledkov

Hlavné porovnanie benchmarkov

Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9

Zhrnutie

Informácie v článku GLM-5 sú veľmi rozsiahle. Nezohľadňujúc konkrétne čísla, hlavná informácia, ktorú prenáša, je: ďalšie bojisko veľkých modelov je "pracovať" a nie len "odpovedať na otázky".

Na konkurenčnej úrovni GLM-5 dokazuje konkurencieschopnosť čínskeho AI tímu v predných výskumoch veľkých modelov.

Informácie o článku

Published in Technology

You Might Also Like