GLM-5: Þegar stórar líkön læra að "skrifa kóða sjálf", frá Vibe Coding til Agentic Engineering

❝

🎯 Ein setning samantekt: Zhipu AI í samstarfi við Tsinghua háskólann kynna GLM-5 líkön með 744B breytum, sem notar DeepSeek Sparse Attention (DSA) til að minnka útreikninga á athygli, fullkomlega ósamstillt styrkingarnám (Async RL) til að leysa vandamál tengd þjálfun á löngum verkefnum, og margra stiga eftirþjálfunarferli, sem gerir stórum líkönum kleift að þróast frá "Vibe Coding" í "Agentic Engineering" sem getur sjálfstætt lokið raunverulegum verkfræðiverkefnum.

Af hverju er þessi grein nauðsynleg?

Andrej Karpathy lagði fram áhugaverða hugmynd í byrjun árs 2025 - Vibe Coding, sem þýðir að þú þarft bara að lýsa kröfum með náttúrulegu máli, "með tilfinningu" láta AI skrifa kóða. Þetta er í raun aðalupplifunin í AI forritun í dag: þú segir eina setningu, líkanið hjálpar þér að búa til kóða, hvernig sem það fer fer allt eftir heppni.

En vandamálið kemur: Raunveruleg hugbúnaðarverkfræði er langt frá því að vera "bara að skrifa kóða". Réttur verkfræðingur þarf að skilja verkefnaskipulag, leysa villur, stjórna háðum, og vinna með samvinnu milli eininga - þetta er ekki eitthvað sem "einn prompt gefur kóða" getur leyst. Markmið GLM-5 þessarar greinar er að breyta líkönum frá "aðstoðarmanni sem skrifar kóða" í "verkfræðing sem getur sjálfstætt klárað allt verkefnið".

Þetta er ekki lítið markmið. Til að ná því hefur Zhipu teymið gert miklar nýjungar í líkönum, þjálfunarferlum, og styrkingarnámsalgrímum. Þessi greining mun leiða þig í gegnum þessar tæknilegu smáatriði.

Kjarnaframlag: Þrjár aðferðir

Fyrir en við förum í smáatriðin, skulum við skýra þrjú kjarnaframlag GLM-5:

Framlag sem leysir vandamálið Kjarna hugmynd DSA Sparse Attention 128K langur samhengi útreikningur sprengir dýrmæt val á mikilvægum token, sleppir óviðkomandi, sparar 1.5-2 sinnum útreikninga Ósamstillt styrkingarnámsrammi Í RL þjálfun á löngum verkefnum er GPU mikið ónotaður, framleiðsla og þjálfun eru algerlega aðskilin, línuleg samhliða Margra stiga eftirþjálfunarferli Ákveðnar hæfileikar eins og rökfræði, kóðun, og aðgerðir eru erfitt að samræma SFT→ rökfræði RL→ aðgerða RL→ almenn RL, hæfileikar eru smám saman lagðir saman

Líkanaarkitektúr: Að gera "mínus" á grunni MoE

Grunnuppsetning

GLM-5 notar Mixture-of-Experts (MoE) arkitektúr, heildarbreytur 744B, en aðeins um 40B breytur eru virkjuð við hverja útreikninga. Þessi "stór og dreifð" hönnun hefur orðið að almennri viðurkenningu í greininni - DeepSeek-V3/R1, Qwen3 hafa farið svipaða leið.

Hvernig virkar DSA í raun?

Kjarna hugmynd DSA má skilja með líkingu: Ímyndaðu þér að þú sért að leita að upplýsingum á bókasafni. Venjuleg athygli er eins og að fletta í gegnum allar bækur á bókasafninu og ákveða hvaða bækur eru gagnlegar. En DSA er meira eins og reyndur bókasafnari - það skannar fyrst titla bóka hratt með Lightning Index, staðsetur nokkur hugsanlega tengd svæði, og les síðan aðeins í gegnum ákveðnar málsgreinar í þessum svæðum.

Þjálfunarferli: Fjórar stig "level up"

Þjálfunarferli GLM-5 er aðalatriðið í þessari grein, skipt í fyrirþjálfun og eftirþjálfun.

Fyrirþjálfunarstig

Gagnamagn: 27T token, gagnablöndun inniheldur vefsíður, kóða, fræðigreinar, bækur o.s.frv.
Samhengi stækkun: Með miðlungs þjálfun er samhengi stækkað frá 4K í 200K, notast við RoPE tíðnibreytur
Hita stig: Í lok fyrirþjálfunar er notað betra gæði gagna til að "fínpússa"

Eftirþjálfunarferli

Þetta er það sem GLM-5 er þekktast fyrir. GLM-5 hefur gert fjórar umferðir:

Stýrð fínstilling (SFT) notar hágæðagagnasett til að fínstilla.
Rökfræði styrkingarnám (Reasoning RL) gerir RL þjálfun á stærðfræði og kóðunar rökfræði verkefnum.
Aðgerða styrkingarnám (Agentic RL), þetta er lykil nýjung.
Almenn styrkingarnám (General RL), gerir RL á breiðari almennum verkefnum.

Ósamstillt styrkingarnám: Að láta GPU ekki "slaka á"

Venjuleg RL þjálfun er samstillt: safna gagnaflokki → reikna umbun → uppfæra líkan → safna aftur. Þetta er ekki vandamál þegar verkefnin eru stutt, en aðgerðarverkefni krafist oft tugir skrefa í samverkan.

Dýrmæt túlkun á tilraunaniðurstöðum

Aðal viðmiðunar samanburður

Viðmiðunar GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9

Samantekt

GLM-5 þessi grein er mjög upplýsingamikil. Að sleppa tilteknu tölunum, kjarna upplýsingin sem hún flytur er: Næsta bardagasvæði stórra líkóna er í "vinnu" en ekki bara "að svara spurningum".

Á samkeppnissviði sannaði GLM-5 samkeppnishæfni kínverskra AI teymis í framsækinni rannsókn á stórum líkönum.

Upplýsingar um greinina

Titill: GLM-5: frá Vibe Coding til Agentic Engineering
Stofnun: Zhipu AI & Tsinghua háskólinn
Tengill: https://arxiv.org/abs/2602.15763

GLM-5: Þegar stórar líkön læra að "skrifa kóða sjálf", frá Vibe Coding til Agentic Engineering

GLM-5: Þegar stórar líkön læra að "skrifa kóða sjálf", frá Vibe Coding til Agentic Engineering

Af hverju er þessi grein nauðsynleg?

Kjarnaframlag: Þrjár aðferðir

Líkanaarkitektúr: Að gera "mínus" á grunni MoE

Grunnuppsetning

Hvernig virkar DSA í raun?

Þjálfunarferli: Fjórar stig "level up"

Fyrirþjálfunarstig

Eftirþjálfunarferli

Ósamstillt styrkingarnám: Að láta GPU ekki "slaka á"

Dýrmæt túlkun á tilraunaniðurstöðum

Aðal viðmiðunar samanburður

Samantekt

Upplýsingar um greinina

You Might Also Like

Claude Code Buddy breytingarleiðbeiningar: Hvernig á að fá glitrandi goðsagnir dýr

Obsidian hefur gefið út Defuddle, sem lyftir Obsidian Web Clipper á nýjan hæð

OpenAI tilkynnti skyndilega "þrjú í eitt": Vafri + forritun + ChatGPT sameining, innanhúss viðurkenndu þau að hafa farið rangt að síðasta árið

2026, ekki lengur að þrýsta á sjálfan sig "sjálfsaga"! Gerðu þessar 8 litlu hluti, heilsa kemur náttúrulega

Mæðurnar sem reyna að léttast en ná ekki árangri, eru örugglega að lenda í þessu

AI Browser 24 tíma stöðugleika leiðbeiningar