GLM-5: Amikor a nagy modellek megtanulják "saját kódot írni", a Vibe Codingtól az Agentic Engineeringig terjedő ugrás

2/26/2026
4 min read

GLM-5: Amikor a nagy modellek megtanulják "saját kódot írni", a Vibe Codingtól az Agentic Engineeringig terjedő ugrás

🎯 Egy mondatban összefoglalva: A Zhizhu AI együttműködve a Tsinghua Egyetemmel bemutatta a 744B paraméteres GLM-5 modellt, amely a DeepSeek Sparse Attention (DSA) segítségével csökkenti a figyelem számítási költségét, a teljesen aszinkron megerősítő tanulás (Async RL) révén javítja a hosszú feladatok edzési hatékonyságát, valamint a többfázisú utóedzési folyamat révén lehetővé teszi, hogy a nagy modell a "vibe coding"-ról (Vibe Coding) egy valódi mérnöki projektet önállóan megvalósító "intelligens mérnökké" (Agentic Engineering) fejlődjön.

Miért van szükség erre a cikkre?

Andrej Karpathy 2025 elején egy érdekes fogalmat vetett fel - Vibe Coding, ami azt jelenti, hogy csak természetes nyelven kell leírni a követelményeket, és "érzés alapján" hagyni, hogy az AI kódot írjon. Ez valóban a jelenlegi AI programozás fő áramlata: mondasz egy mondatot, a modell segít generálni egy kódrészletet, hogy mennyire sikerül, az teljesen a szerencsén múlik.

De itt a probléma: a valódi szoftvermérnökség messze nem csak annyiból áll, hogy "kódot írunk". Egy igazi mérnöknek meg kell értenie a projekt architektúráját, hibákat kell elhárítania, kezelnie kell a függőségeket, és foglalkoznia kell a modulok közötti együttműködéssel - ezek mind nem oldhatók meg "egy prompttal egy kódrészlet" módszerrel. A GLM-5 cikk célja, hogy a modellt "kódírásban segítő asszisztensből" olyan "mérnökké" alakítsa, aki képes önállóan megoldani az egész projektet.

Ez nem egy kis cél. Ennek eléréséhez a Zhizhu csapata számos innovációt végzett a modell architektúrájában, az edzési folyamatban és a megerősítő tanulási algoritmusokban. Ez a cikk részletesen bemutatja ezeket a technikai részleteket.

Fő hozzájárulás: Három fő terület

A részletekbe merülés előtt tisztázzuk a GLM-5 három fő hozzájárulását:

Hozzájárulás által megoldott probléma fő gondolat DSA ritka figyelem 128K hosszú kontextus számítási költsége robbanásszerű dinamikus fontos tokenek kiválasztása, irrelevánsak átugrása, 1.5-2x számítási teljesítmény megtakarítása Aszinkron megerősítő tanulási keretrendszer hosszú feladatok RL edzésénél a GPU nagy része inaktív a generálás és az edzés teljesen szétválasztva, párhuzamosan folyik Többfázisú utóedzési folyamat a következtetés, kódolás, intelligens ügynök és egyéb képességek nehezen összeegyeztethetők SFT→ következtetés RL→ intelligens ügynök RL→ általános RL, fokozatosan halmozva a képességeket

Modell architektúra: "levonás" a MoE vázán

Alap konfiguráció

A GLM-5 Mixture-of-Experts (MoE) architektúrát alkalmaz, összesen 744B paraméterrel, de minden egyes következtetés során csak körülbelül 40B paraméter aktiválódik. Ez a "nagy és ritka" dizájn már ipari konszenzussá vált - a DeepSeek-V3/R1, Qwen3 hasonló utat követett.

Hogyan működik a DSA?

A DSA alapgondolata egy hasonlattal érthető: képzeld el, hogy az könyvtárban keresel anyagot. A standard figyelem olyan, mintha az egész könyvtár minden könyvét átnéznéd, majd eldöntenéd, hogy melyek hasznosak. A DSA inkább egy tapasztalt könyvtárosra hasonlít - először a Villámindexelő (Lightning Index) segítségével gyorsan átnézi a könyvespolc címét, azonosít néhány potenciálisan releváns területet, majd csak ezeken a területeken belül olvas el konkrét bekezdéseket.

Edzési folyamat: Négy szakaszú "szörnyek legyőzése"

A GLM-5 edzési folyamata a cikk fő része, amely két nagy szakaszra oszlik: előedzés és utóedzés.

Előedzési szakasz

  • Adatmennyiség: 27T token, az adatok keverési aránya weboldalak, kódok, tudományos cikkek, könyvek stb.
  • Kontekxtus bővítése: a középidős edzés során a kontextust fokozatosan 4K-ról 200K-ra bővítjük, RoPE frekvencia beállítással
  • Hűtési szakasz: az előedzés végén magasabb minőségű adatokkal "finomítunk"

Utóedzési négy lépés

Ez a GLM-5 legjellemzőbb része. A GLM-5 négy kört végzett:

  • Felügyelt finomhangolás (SFT) magas minőségű utasítási adatokkal történik.
  • Következtetési megerősítő tanulás (Reasoning RL) matematikai és kód következtetési feladatokon végeznek RL edzést.
  • Intelligens ügynök megerősítő tanulás (Agentic RL), ez a kulcsfontosságú innováció.
  • Általános megerősítő tanulás (General RL), szélesebb általános feladatokon végeznek RL-t.

Aszinkron megerősítő tanulás: a GPU-t ne hagyjuk "pihenni"

A hagyományos RL edzés szinkron: egy adathalmozás gyűjtése → jutalom számítása → modell frissítése → újabb gyűjtés. Ez rövid feladatidő esetén nem probléma, de az intelligens ügynöki feladatok gyakran több tucat interakciót igényelnek.

Kísérleti eredmények mélyreható elemzése

Fő benchmark összehasonlítás

Benchmark GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

Összegzés

A GLM-5 cikk információtartalma nagyon gazdag. A konkrét számokat félretéve, a központi üzenete: a nagy modellek következő csatatere a "munka végzése", nem csupán a "kérdések megválaszolása".

A versenyképesség szempontjából a GLM-5 bizonyította, hogy a kínai AI csapatok versenyképesek a nagy modellek élvonalbeli kutatásában.

Cikk információ

Published in Technology

You Might Also Like