GLM-5: kui suured mudelid õpivad "ise koodi kirjutama", üleminek Vibe Coding'ult Agentic Engineering'ule

2/26/2026
4 min read

GLM-5: kui suured mudelid õpivad "ise koodi kirjutama", üleminek Vibe Coding'ult Agentic Engineering'ule

🎯 Üks lause kokkuvõte: Zhizhu AI koostöös Tsinghua ülikooliga tutvustas 744B parameetriga GLM-5 mudelit, kasutades DeepSeek Sparse Attention (DSA) tähelepanu arvutuste koormuse vähendamiseks, täielikult asünkroonset tugevdamisõpet (Async RL) pikaajaliste ülesannete treeningefektiivsuse parandamiseks ning mitmeastmelist järeltreeningu protsessi, et suur mudel saaks areneda "atmosfääri kodeerimisest" (Vibe Coding) iseseisvaks "intelligentseks inseneriks" (Agentic Engineering), kes suudab reaalseid inseneriprojekte iseseisvalt teostada.

Miks on see artikkel vajalik?

Andrej Karpathy esitas 2025. aasta alguses huvitava kontseptsiooni - Vibe Coding, mis tähendab, et piisab, kui kirjeldad nõudmisi loomulikus keeles ja "tunned ära", et AI kirjutab koodi. See on tõepoolest praegune AI programmeerimise peamine kogemus: sa ütled lause, mudel aitab sul genereerida koodi, kas see on hea või halb, sõltub täielikult õnnest.

Aga probleem on järgmine: reaalne tarkvaraarendus ei ole kaugeltki nii lihtne kui "koodi kirjutamine". Tõeline insener peab mõistma projekti arhitektuuri, tõrkeotsingut, sõltuvuste haldamist, modulaarset koostööd - need ei ole asjad, millega saab hakkama "ühe promptiga koodi genereerimisega". GLM-5 selle artikli eesmärk on muuta mudel "koodi kirjutamise abistajast" "inseneriks, kes suudab kogu projekti iseseisvalt lahendada".

See ei ole väike eesmärk. Selle saavutamiseks on Zhizhu meeskond teinud palju uuendusi mudeli arhitektuuris, treeningprotsessis ja tugevdamisõppe algoritmides. See tõlgendus viib teid nende tehniliste detailide lahtimõtestamiseni.

Peamine panus: kolm peamist ideed

Enne detailidesse süvenemist, selgitage GLM-5 kolme peamist panust:

| Panus | Lahendatud probleem | Peamine mõte | |-------|-------------------|---------------| | DSA haruldane tähelepanu | 128K pika konteksti arvutuskoormuse plahvatus | Dünaamiline oluliste tokenite valik, ebaoluliste vahelejätmine, säästab 1.5-2 korda arvutusvõimet | | Asünkroonne tugevdamisõppe raamistik | Pikaajalise RL treeningu ajal GPU suur hulk vaba aega | Generatsioon ja treening täielikult eraldatud, voolavuslik paralleelsus | | Mitmeastmeline järeltreeningu protsess | Järeldamine, kodeerimine, intelligentne agent jne on keeruline üheaegselt hallata | SFT → järeldamine RL → intelligentne agent RL → üldine RL, järk-järgult lisatakse võimeid |

Mudeli arhitektuur: "miinimum" MoE raami peal

Põhikonfiguratsioon

GLM-5 kasutab Mixture-of-Experts (MoE) arhitektuuri, kokku 744B parameetrit, kuid iga järeldamise korral aktiveeritakse vaid umbes 40B parameetrit. See "suur ja haruldane" disain on muutunud tööstuse konsensuseks - DeepSeek-V3/R1, Qwen3 on läinud sarnast teed.

Kuidas DSA tegelikult töötab?

DSA põhikontseptsiooni saab mõista läbi metafoori: kujutage ette, et otsite raamatukogust materjale. Standardne tähelepanu on nagu kogu raamatukogu iga raamatu läbi vaatamine ja seejärel otsustamine, millised on kasulikud. DSA on rohkem nagu kogenud raamatukoguhoidja - see skaneerib esmalt Lightning Index abil kiiresti riiulite pealkirju, lukustades mõned potentsiaalselt seotud piirkonnad, ja seejärel loeb ainult neid piirkondi põhjalikult.

Treeningprotsess: neljaastmeline "level-up"

GLM-5 treeningprotsess on selle artikli tähtsaim osa, jaguneb kaheks suureks etapiks: eeltreening ja järeltreening.

Eeltreeningu etapp

  • Andmete maht: 27T tokenit, andmete segamisprotsent sisaldab veebilehti, koodi, teadusartikleid, raamatuid jne
  • Konteksti laiendamine: konteksti järkjärguline laiendamine 4K-lt 200K-le keskmise treeningu kaudu, kasutades RoPE sageduse kohandamist
  • Küpsetamisetapp: eeltreeningu lõpus kasutatakse kvaliteetsemate andmete "peenhäälestamiseks"

Järeltreeningu neli sammu

See on GLM-5 kõige iseloomulikum osa. GLM-5 tegi neli vooru:

  • Juhendatud peenhäälestamine (SFT) kvaliteetsete juhiste andmete abil.
  • Järeldamise tugevdamisõpe (Reasoning RL) matemaatika ja koodi järeldamise ülesannete RL treening.
  • Intelligentse agendi tugevdamisõpe (Agentic RL), see on oluline uuendus.
  • Üldine tugevdamisõpe (General RL), RL laiemate üldiste ülesannete jaoks.

Asünkroonne tugevdamisõpe: GPU ei "lõdvesta"

Traditsiooniline RL treening on sünkroonne: andmete kogumine → preemia arvutamine → mudeli uuendamine → andmete kogumine uuesti. See ei ole probleem lühikeste ülesannete puhul, kuid intelligentsete agentide ülesanded vajavad sageli kümneid samme interaktsioone.

Eksperimentaalsed tulemuste süvaanalüüs

Peamised standardite võrdlused

| Standard | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | |----------|--------|----------------|-----------------|---------------|-----------|----------| | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Kokkuvõte

GLM-5 see artikkel sisaldab palju teavet. Jätame kõrvale konkreetsed numbrid, selle põhiteade on: suure mudeli järgmine lahinguväli on "töötamine", mitte ainult "küsimustele vastamine".

Konkurentsitasandil tõestab GLM-5 Hiina AI meeskondade konkurentsivõimet suurte mudelite tipptasemel teadusuuringutes.

Artikli teave

Published in Technology

You Might Also Like