GLM-5: kad lieli modeļi iemācās "rakstīt kodu paši", no Vibe Coding uz Agentic Engineering

❝

🎯 Vienkāršs kopsavilkums: Zhīpǔ AI kopā ar Tsinghua universitāti izstrādāja 744B parametru GLM-5 modeli, izmantojot DeepSeek Sparse Attention (DSA), lai samazinātu uzmanības aprēķinu apjomu, pilnīgi asinkronu pastiprināšanas mācīšanos (Async RL), lai uzlabotu ilgstošu uzdevumu apmācības efektivitāti, un daudzpakāpju pēcapmācības procesu, ļaujot lielajiem modeļiem attīstīties no "vibe kodēšanas" (Vibe Coding) uz "inteliģento inženieri" (Agentic Engineering), kas spēj patstāvīgi pabeigt reālus inženierijas projektus.

Kāpēc nepieciešama šī raksts?

Andrej Karpathy 2025. gada sākumā izvirzīja interesantu jēdzienu — Vibe Coding, kas nozīmē, ka jums vienkārši jāapraksta prasības dabiskā valodā, "pēc sajūtas" ļaujot AI rakstīt kodu. Tas patiešām ir pašreizējā AI programmēšanas galvenā pieredze: jūs sakāt teikumu, modelis palīdz jums ģenerēt koda fragmentu, un tas, cik labi tas iznāk, ir atkarīgs no veiksmes.

Bet problēma ir šāda: reālā programmatūras inženierija ir daudz sarežģītāka par "koda rakstīšanu". Patiesam inženierim ir jāizprot projekta arhitektūra, jānovērš kļūdas, jāvada atkarības, jārisina starpmoduļu sadarbība — šīs visas lietas nav iespējams atrisināt ar "vienu prompt un vienu koda fragmentu". GLM-5 šī raksta mērķis ir padarīt modeli no "palīga, kas raksta kodu" par "inženieri, kas spēj patstāvīgi pabeigt visu projektu".

Tas nav mazs mērķis. Lai to sasniegtu, Zhīpǔ komanda ir veikuši daudz inovāciju modeļa arhitektūrā, apmācības procesos un pastiprināšanas mācīšanās algoritmos. Šis izskaidrojums palīdzēs jums izprast šos tehniskos sīkumus.

Galvenais ieguldījums: trīs galvenās pieejas

Pirms iedziļināšanās detaļās, vispirms izskaidrosim GLM-5 trīs galvenos ieguldījumus:

Ieguldījums risina problēmu galvenā domaDSA retā uzmanība128K garas konteksta aprēķinu izmaksas eksplozija dinamiskā svarīgu token izvēle, izlaižot nesaistītos, ietaupot 1.5-2 reizes skaitļošanas jauduasinkronā pastiprināšanas mācīšanās struktūrailgstošā uzdevuma RL apmācībā GPU ir daudz brīvas jaudas ģenerēšana un apmācība ir pilnīgi atdalīta, plūstoša paralēla apmācībadaudzpakāpju pēcapmācības processsecināšana, kodēšana, inteliģents aģents un citas spējas ir grūti apvienot SFT→secināšana RL→inteliģents aģents RL→vispārējais RL, pakāpeniski pievienojot spējas

Modeļa arhitektūra: "atņemšana" uz MoE pamata

Pamata konfigurācija

GLM-5 izmanto Mixture-of-Experts (MoE) arhitektūru, kopējais parametru skaits ir 744B, bet katras secināšanas laikā tiek aktivizēti apmēram 40B parametru. Šāda "liela un reta" dizaina pieeja jau ir kļuvusi par nozares konsensu — DeepSeek-V3/R1, Qwen3 ir sekojuši līdzīgai trasei.

Kā DSA patiesībā darbojas?

DSA pamatideju var saprast, izmantojot salīdzinājumu: iedomājieties, ka jūs meklējat materiālus bibliotēkā. Standarta uzmanība ir kā pārlūkot visas grāmatas bibliotēkā un pēc tam izlemt, kuras ir noderīgas. Savukārt DSA ir vairāk kā pieredzējis bibliotēkas darbinieks — tas vispirms izmanto Lightning Index ātri skenējot grāmatu plauktu nosaukumus, nosakot dažas potenciāli saistītas zonas, un pēc tam tikai rūpīgi izpēta konkrētas nodaļas šajās zonās.

Apmācības process: četru posmu "uzlabošana"

GLM-5 apmācības process ir šī raksta galvenā daļa, kas sastāv no priekšapmācības un pēcapmācības diviem galvenajiem posmiem.

Priekšapmācības posms

Datu apjoms: 27T token, datu maisījuma proporcijas ietver tīmekļa lapas, kodu, akadēmiskos rakstus, grāmatas utt.
Konteksta paplašināšana: caur vidēja termiņa apmācību pakāpeniski paplašinot kontekstu no 4K līdz 200K, izmantojot RoPE frekvences pielāgošanu.
Aukstuma posms: apmācības beigās izmantojot augstākas kvalitātes datus, lai veiktu "smalko apstrādi".

Pēcapmācības četri soļi

Tas ir GLM-5 visraksturīgākais posms. GLM-5 veica četras kārtas:

Uzraudzīta smalkā apstrāde (SFT) izmantojot augstas kvalitātes instrukciju datus.
Secināšanas pastiprināšanas mācīšanās (Reasoning RL) matemātikas un koda secināšanas uzdevumos.
Inteliģenta aģenta pastiprināšanas mācīšanās (Agentic RL), kas ir galvenā inovācija.
Vispārējā pastiprināšanas mācīšanās (General RL), veicot RL plašākos vispārējos uzdevumos.

Asinkronā pastiprināšanas mācīšanās: ļauj GPU vairs "neatpūsties"

Tradicionālā RL apmācība ir saskaņota: datu partijas vākšana → atlīdzības aprēķināšana → modeļa atjaunināšana → atkārtota vākšana. Tas nav problēma īsu uzdevumu gadījumā, bet inteliģenta aģenta uzdevumi bieži prasa desmitiem mijiedarbību.

Eksperimentu rezultātu dziļa analīze

Galvenie salīdzinājumi

SalīdzinājumsGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

Kopsavilkums

GLM-5 šī raksta informācijas apjoms ir liels. Atmetot konkrētos skaitļus, tā galvenā ziņa ir: lielo modeļu nākamā kaujas lauks ir "darbs", nevis tikai "atbildēšana uz jautājumiem".

Konkurences līmenī GLM-5 pierāda Ķīnas AI komandu konkurētspēju lielo modeļu priekšējā pētījumā.

Raksta informācija

Nosaukums: GLM-5: no Vibe Coding uz Agentic Engineering
Institūcija: Zhīpǔ AI & Tsinghua universitāte
Saite: https://arxiv.org/abs/2602.15763

GLM-5: kad lieli modeļi iemācās "rakstīt kodu paši", no Vibe Coding uz Agentic Engineering

GLM-5: kad lieli modeļi iemācās "rakstīt kodu paši", no Vibe Coding uz Agentic Engineering

Kāpēc nepieciešama šī raksts?

Galvenais ieguldījums: trīs galvenās pieejas

Modeļa arhitektūra: "atņemšana" uz MoE pamata

Pamata konfigurācija

Kā DSA patiesībā darbojas?

Apmācības process: četru posmu "uzlabošana"

Priekšapmācības posms

Pēcapmācības četri soļi

Asinkronā pastiprināšanas mācīšanās: ļauj GPU vairs "neatpūsties"

Eksperimentu rezultātu dziļa analīze

Galvenie salīdzinājumi

Kopsavilkums

Raksta informācija

You Might Also Like

Claude Code Buddy modificēšanas ceļvedis: kā iegūt spīdīgu leģendāro mājdzīvnieku

Obsidian ir izlaidusi Defuddle, pacelot Obsidian Web Clipper uz jauniem augstumiem

OpenAI pēkšņi paziņo par "trīs vienā": pārlūks + programmēšana + ChatGPT apvienošana, iekšēji atzīst, ka pagājušajā gadā tika pieļautas kļūdas

2026, vairs neuzspied sevi "pašdisciplīnai"! Veic šos 8 sīkumus, veselība nāks dabiski

Māmiņas, kas cenšas zaudēt svaru, bet nesasniedz rezultātus, noteikti ir šeit

AI Pārlūka 24 stundu stabilas darbības ceļvedis