GLM-5: kad lieli modeļi iemācās "rakstīt kodu paši", no Vibe Coding uz Agentic Engineering
GLM-5: kad lieli modeļi iemācās "rakstīt kodu paši", no Vibe Coding uz Agentic Engineering
❝
🎯 Vienkāršs kopsavilkums: Zhīpǔ AI kopā ar Tsinghua universitāti izstrādāja 744B parametru GLM-5 modeli, izmantojot DeepSeek Sparse Attention (DSA), lai samazinātu uzmanības aprēķinu apjomu, pilnīgi asinkronu pastiprināšanas mācīšanos (Async RL), lai uzlabotu ilgstošu uzdevumu apmācības efektivitāti, un daudzpakāpju pēcapmācības procesu, ļaujot lielajiem modeļiem attīstīties no "vibe kodēšanas" (Vibe Coding) uz "inteliģento inženieri" (Agentic Engineering), kas spēj patstāvīgi pabeigt reālus inženierijas projektus.
Kāpēc nepieciešama šī raksts?
Andrej Karpathy 2025. gada sākumā izvirzīja interesantu jēdzienu — Vibe Coding, kas nozīmē, ka jums vienkārši jāapraksta prasības dabiskā valodā, "pēc sajūtas" ļaujot AI rakstīt kodu. Tas patiešām ir pašreizējā AI programmēšanas galvenā pieredze: jūs sakāt teikumu, modelis palīdz jums ģenerēt koda fragmentu, un tas, cik labi tas iznāk, ir atkarīgs no veiksmes.
Bet problēma ir šāda: reālā programmatūras inženierija ir daudz sarežģītāka par "koda rakstīšanu". Patiesam inženierim ir jāizprot projekta arhitektūra, jānovērš kļūdas, jāvada atkarības, jārisina starpmoduļu sadarbība — šīs visas lietas nav iespējams atrisināt ar "vienu prompt un vienu koda fragmentu". GLM-5 šī raksta mērķis ir padarīt modeli no "palīga, kas raksta kodu" par "inženieri, kas spēj patstāvīgi pabeigt visu projektu".
Tas nav mazs mērķis. Lai to sasniegtu, Zhīpǔ komanda ir veikuši daudz inovāciju modeļa arhitektūrā, apmācības procesos un pastiprināšanas mācīšanās algoritmos. Šis izskaidrojums palīdzēs jums izprast šos tehniskos sīkumus.
Galvenais ieguldījums: trīs galvenās pieejas
Pirms iedziļināšanās detaļās, vispirms izskaidrosim GLM-5 trīs galvenos ieguldījumus:
Ieguldījums risina problēmu galvenā domaDSA retā uzmanība128K garas konteksta aprēķinu izmaksas eksplozija dinamiskā svarīgu token izvēle, izlaižot nesaistītos, ietaupot 1.5-2 reizes skaitļošanas jauduasinkronā pastiprināšanas mācīšanās struktūrailgstošā uzdevuma RL apmācībā GPU ir daudz brīvas jaudas ģenerēšana un apmācība ir pilnīgi atdalīta, plūstoša paralēla apmācībadaudzpakāpju pēcapmācības processsecināšana, kodēšana, inteliģents aģents un citas spējas ir grūti apvienot SFT→secināšana RL→inteliģents aģents RL→vispārējais RL, pakāpeniski pievienojot spējas
Modeļa arhitektūra: "atņemšana" uz MoE pamata
Pamata konfigurācija
GLM-5 izmanto Mixture-of-Experts (MoE) arhitektūru, kopējais parametru skaits ir 744B, bet katras secināšanas laikā tiek aktivizēti apmēram 40B parametru. Šāda "liela un reta" dizaina pieeja jau ir kļuvusi par nozares konsensu — DeepSeek-V3/R1, Qwen3 ir sekojuši līdzīgai trasei.
Kā DSA patiesībā darbojas?
DSA pamatideju var saprast, izmantojot salīdzinājumu: iedomājieties, ka jūs meklējat materiālus bibliotēkā. Standarta uzmanība ir kā pārlūkot visas grāmatas bibliotēkā un pēc tam izlemt, kuras ir noderīgas. Savukārt DSA ir vairāk kā pieredzējis bibliotēkas darbinieks — tas vispirms izmanto Lightning Index ātri skenējot grāmatu plauktu nosaukumus, nosakot dažas potenciāli saistītas zonas, un pēc tam tikai rūpīgi izpēta konkrētas nodaļas šajās zonās.
Apmācības process: četru posmu "uzlabošana"
GLM-5 apmācības process ir šī raksta galvenā daļa, kas sastāv no priekšapmācības un pēcapmācības diviem galvenajiem posmiem.
Priekšapmācības posms
- Datu apjoms: 27T token, datu maisījuma proporcijas ietver tīmekļa lapas, kodu, akadēmiskos rakstus, grāmatas utt.
- Konteksta paplašināšana: caur vidēja termiņa apmācību pakāpeniski paplašinot kontekstu no 4K līdz 200K, izmantojot RoPE frekvences pielāgošanu.
- Aukstuma posms: apmācības beigās izmantojot augstākas kvalitātes datus, lai veiktu "smalko apstrādi".
Pēcapmācības četri soļi
Tas ir GLM-5 visraksturīgākais posms. GLM-5 veica četras kārtas:
- Uzraudzīta smalkā apstrāde (SFT) izmantojot augstas kvalitātes instrukciju datus.
- Secināšanas pastiprināšanas mācīšanās (Reasoning RL) matemātikas un koda secināšanas uzdevumos.
- Inteliģenta aģenta pastiprināšanas mācīšanās (Agentic RL), kas ir galvenā inovācija.
- Vispārējā pastiprināšanas mācīšanās (General RL), veicot RL plašākos vispārējos uzdevumos.
Asinkronā pastiprināšanas mācīšanās: ļauj GPU vairs "neatpūsties"
Tradicionālā RL apmācība ir saskaņota: datu partijas vākšana → atlīdzības aprēķināšana → modeļa atjaunināšana → atkārtota vākšana. Tas nav problēma īsu uzdevumu gadījumā, bet inteliģenta aģenta uzdevumi bieži prasa desmitiem mijiedarbību.
Eksperimentu rezultātu dziļa analīze
Galvenie salīdzinājumi
SalīdzinājumsGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
Kopsavilkums
GLM-5 šī raksta informācijas apjoms ir liels. Atmetot konkrētos skaitļus, tā galvenā ziņa ir: lielo modeļu nākamā kaujas lauks ir "darbs", nevis tikai "atbildēšana uz jautājumiem".
Konkurences līmenī GLM-5 pierāda Ķīnas AI komandu konkurētspēju lielo modeļu priekšējā pētījumā.
Raksta informācija
- Nosaukums: GLM-5: no Vibe Coding uz Agentic Engineering
- Institūcija: Zhīpǔ AI & Tsinghua universitāte
- Saite: https://arxiv.org/abs/2602.15763

