GLM-5: Amikor a nagy modellek megtanulják "saját kódot írni", a Vibe Codingtól az Agentic Engineeringig terjedő ugrás
GLM-5: Amikor a nagy modellek megtanulják "saját kódot írni", a Vibe Codingtól az Agentic Engineeringig terjedő ugrás
❝
🎯 Egy mondatban összefoglalva: A Zhizhu AI együttműködve a Tsinghua Egyetemmel bemutatta a 744B paraméteres GLM-5 modellt, amely a DeepSeek Sparse Attention (DSA) segítségével csökkenti a figyelem számítási költségét, a teljesen aszinkron megerősítő tanulás (Async RL) révén javítja a hosszú feladatok edzési hatékonyságát, valamint a többfázisú utóedzési folyamat révén lehetővé teszi, hogy a nagy modell a "vibe coding"-ról (Vibe Coding) egy valódi mérnöki projektet önállóan megvalósító "intelligens mérnökké" (Agentic Engineering) fejlődjön.
Miért van szükség erre a cikkre?
Andrej Karpathy 2025 elején egy érdekes fogalmat vetett fel - Vibe Coding, ami azt jelenti, hogy csak természetes nyelven kell leírni a követelményeket, és "érzés alapján" hagyni, hogy az AI kódot írjon. Ez valóban a jelenlegi AI programozás fő áramlata: mondasz egy mondatot, a modell segít generálni egy kódrészletet, hogy mennyire sikerül, az teljesen a szerencsén múlik.
De itt a probléma: a valódi szoftvermérnökség messze nem csak annyiból áll, hogy "kódot írunk". Egy igazi mérnöknek meg kell értenie a projekt architektúráját, hibákat kell elhárítania, kezelnie kell a függőségeket, és foglalkoznia kell a modulok közötti együttműködéssel - ezek mind nem oldhatók meg "egy prompttal egy kódrészlet" módszerrel. A GLM-5 cikk célja, hogy a modellt "kódírásban segítő asszisztensből" olyan "mérnökké" alakítsa, aki képes önállóan megoldani az egész projektet.
Ez nem egy kis cél. Ennek eléréséhez a Zhizhu csapata számos innovációt végzett a modell architektúrájában, az edzési folyamatban és a megerősítő tanulási algoritmusokban. Ez a cikk részletesen bemutatja ezeket a technikai részleteket.
Fő hozzájárulás: Három fő terület
A részletekbe merülés előtt tisztázzuk a GLM-5 három fő hozzájárulását:
Hozzájárulás által megoldott probléma fő gondolat DSA ritka figyelem 128K hosszú kontextus számítási költsége robbanásszerű dinamikus fontos tokenek kiválasztása, irrelevánsak átugrása, 1.5-2x számítási teljesítmény megtakarítása Aszinkron megerősítő tanulási keretrendszer hosszú feladatok RL edzésénél a GPU nagy része inaktív a generálás és az edzés teljesen szétválasztva, párhuzamosan folyik Többfázisú utóedzési folyamat a következtetés, kódolás, intelligens ügynök és egyéb képességek nehezen összeegyeztethetők SFT→ következtetés RL→ intelligens ügynök RL→ általános RL, fokozatosan halmozva a képességeket
Modell architektúra: "levonás" a MoE vázán
Alap konfiguráció
A GLM-5 Mixture-of-Experts (MoE) architektúrát alkalmaz, összesen 744B paraméterrel, de minden egyes következtetés során csak körülbelül 40B paraméter aktiválódik. Ez a "nagy és ritka" dizájn már ipari konszenzussá vált - a DeepSeek-V3/R1, Qwen3 hasonló utat követett.
Hogyan működik a DSA?
A DSA alapgondolata egy hasonlattal érthető: képzeld el, hogy az könyvtárban keresel anyagot. A standard figyelem olyan, mintha az egész könyvtár minden könyvét átnéznéd, majd eldöntenéd, hogy melyek hasznosak. A DSA inkább egy tapasztalt könyvtárosra hasonlít - először a Villámindexelő (Lightning Index) segítségével gyorsan átnézi a könyvespolc címét, azonosít néhány potenciálisan releváns területet, majd csak ezeken a területeken belül olvas el konkrét bekezdéseket.
Edzési folyamat: Négy szakaszú "szörnyek legyőzése"
A GLM-5 edzési folyamata a cikk fő része, amely két nagy szakaszra oszlik: előedzés és utóedzés.
Előedzési szakasz
- Adatmennyiség: 27T token, az adatok keverési aránya weboldalak, kódok, tudományos cikkek, könyvek stb.
- Kontekxtus bővítése: a középidős edzés során a kontextust fokozatosan 4K-ról 200K-ra bővítjük, RoPE frekvencia beállítással
- Hűtési szakasz: az előedzés végén magasabb minőségű adatokkal "finomítunk"
Utóedzési négy lépés
Ez a GLM-5 legjellemzőbb része. A GLM-5 négy kört végzett:
- Felügyelt finomhangolás (SFT) magas minőségű utasítási adatokkal történik.
- Következtetési megerősítő tanulás (Reasoning RL) matematikai és kód következtetési feladatokon végeznek RL edzést.
- Intelligens ügynök megerősítő tanulás (Agentic RL), ez a kulcsfontosságú innováció.
- Általános megerősítő tanulás (General RL), szélesebb általános feladatokon végeznek RL-t.
Aszinkron megerősítő tanulás: a GPU-t ne hagyjuk "pihenni"
A hagyományos RL edzés szinkron: egy adathalmozás gyűjtése → jutalom számítása → modell frissítése → újabb gyűjtés. Ez rövid feladatidő esetén nem probléma, de az intelligens ügynöki feladatok gyakran több tucat interakciót igényelnek.
Kísérleti eredmények mélyreható elemzése
Fő benchmark összehasonlítás
Benchmark GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
Összegzés
A GLM-5 cikk információtartalma nagyon gazdag. A konkrét számokat félretéve, a központi üzenete: a nagy modellek következő csatatere a "munka végzése", nem csupán a "kérdések megválaszolása".
A versenyképesség szempontjából a GLM-5 bizonyította, hogy a kínai AI csapatok versenyképesek a nagy modellek élvonalbeli kutatásában.
Cikk információ
- Cím: GLM-5: a Vibe Codingtól az Agentic Engineeringig
- Intézmény: Zhizhu AI & Tsinghua Egyetem
- Link: https://arxiv.org/abs/2602.15763

