GLM-5：Kapag natutunan ng malalaking modelo na "magsulat ng code" nang mag-isa, mula sa Vibe Coding hanggang sa Agentic Engineering

❝

🎯 Isang pangungusap na buod：Ang Zhiyu AI ay nakipagtulungan sa Tsinghua University upang ilunsad ang GLM-5 model na may 744B na parameter, sa pamamagitan ng DeepSeek Sparse Attention (DSA) na nagpapababa ng computational load ng atensyon, buong asynchronous reinforcement learning (Async RL) na nag-aayos ng kahusayan ng pagsasanay sa mahahabang gawain, at multi-stage post-training process, na nagpapahintulot sa malaking modelo na umunlad mula sa "Vibe Coding" patungo sa "Agentic Engineering" na kayang kumpletuhin ang tunay na mga proyekto sa engineering nang mag-isa.

Bakit kailangan ang papel na ito?

Noong unang bahagi ng 2025, nagbigay si Andrej Karpathy ng isang kawili-wiling konsepto——Vibe Coding, na nangangahulugang kailangan mo lamang ilarawan ang mga pangangailangan gamit ang natural na wika, at "sa pakiramdam" ay hayaan ang AI na magsulat ng code. Ito talaga ang kasalukuyang pangunahing karanasan sa AI programming: nagsasabi ka ng isang pangungusap, ang modelo ay tumutulong sa iyo na bumuo ng isang piraso ng code, at ang resulta ay nakasalalay sa swerte.

Ngunit dumating ang problema: ang tunay na software engineering ay hindi lamang "pagsusulat ng code" na ganun kadali. Ang isang tunay na engineer ay kailangang maunawaan ang arkitektura ng proyekto, mag-debug ng mga error, pamahalaan ang mga dependency, at hawakan ang pakikipagtulungan sa pagitan ng mga module——lahat ng ito ay hindi kayang gawin ng "isang prompt na naglalabas ng isang piraso ng code". Ang layunin ng papel na ito ng GLM-5 ay gawing mula sa "katulong na tumutulong sa iyo na magsulat ng code" patungo sa "engineer na kayang kumpletuhin ang buong proyekto nang mag-isa".

Ito ay hindi isang maliit na layunin. Upang makamit ito, ang Zhiyu team ay gumawa ng maraming inobasyon sa arkitektura ng modelo, proseso ng pagsasanay, at mga algorithm ng reinforcement learning. Ang interpretasyong ito ay dadalhin ka sa pag-unawa sa mga teknikal na detalye.

Pangunahing kontribusyon: Tatlong pangunahing ideya

Bago sumisid sa mga detalye, linawin muna ang tatlong pangunahing kontribusyon ng GLM-5:

| Kontribusyon | Problema na nilutas | Pangunahing ideya | | --- | --- | --- | | DSA Sparse Attention | 128K na mahabang konteksto na nagiging sobrang mahal | Dinamikong pinipili ang mga mahalagang token, nilalaktawan ang mga hindi kaugnay, nagse-save ng 1.5-2 beses na computational power | | Asynchronous Reinforcement Learning Framework | Maraming idle GPU sa mahahabang gawain ng RL training | Ganap na pinaghiwalay ang pagbuo at pagsasanay, pipeline parallelism | | Multi-stage Post-training Process | Mahirap isabay ang iba't ibang kakayahan tulad ng inference, coding, at agent | SFT→inference RL→agent RL→general RL, unti-unting nagdaragdag ng kakayahan |

Arkitektura ng modelo: Gumawa ng "subtraction" sa balangkas ng MoE

Pangunahing configuration

Ang GLM-5 ay gumagamit ng Mixture-of-Experts (MoE) na arkitektura, na may kabuuang 744B na parameter, ngunit sa bawat inference ay nag-a-activate lamang ng humigit-kumulang 40B na parameter. Ang ganitong "malaki at sparse" na disenyo ay naging pangkaraniwang kasunduan sa industriya——DeepSeek-V3/R1, Qwen3 ay naglakbay sa katulad na ruta.

Paano talaga gumagana ang DSA?

Ang pangunahing ideya ng DSA ay maaaring maunawaan gamit ang isang metapora: isipin mong ikaw ay naghahanap ng impormasyon sa isang aklatan. Standard attention ay parang pag-flip ng bawat libro sa buong aklatan, at pagkatapos ay nagpasya kung aling mga libro ang kapaki-pakinabang. Samantalang ang DSA ay mas katulad ng isang may karanasang librarian——ito ay unang gumagamit ng Lightning Index upang mabilis na i-scan ang mga pamagat ng bookshelf, itinutok ang ilang posibleng kaugnay na lugar, at pagkatapos ay tanging ang mga partikular na talata sa mga lugar na iyon ang binabasa nang mabuti.

Proseso ng pagsasanay: Apat na yugto ng "level up"

Ang proseso ng pagsasanay ng GLM-5 ay ang pangunahing bahagi ng papel na ito, nahahati sa pre-training at post-training na dalawang pangunahing yugto.

Pre-training na yugto

Saklaw ng data: 27T token, ang halo ng data ay kinabibilangan ng mga webpage, code, akademikong papel, mga libro, atbp.
Pagpapalawak ng konteksto: Sa pamamagitan ng mid-training, unti-unting pinalawak ang konteksto mula 4K hanggang 200K, gamit ang RoPE frequency adjustment.
Annealing phase: Sa dulo ng pre-training, gumagamit ng mas mataas na kalidad na data para sa "fine-tuning".

Post-training na apat na hakbang

Ito ang pinaka-kakaibang bahagi ng GLM-5. Ang GLM-5 ay nagdaos ng apat na rounds:

Supervised Fine-tuning (SFT) gamit ang mataas na kalidad na instruction data para sa fine-tuning.
Reasoning Reinforcement Learning (Reasoning RL) sa mga gawain ng mathematical at code reasoning para sa RL training.
Agentic Reinforcement Learning (Agentic RL), ito ang pangunahing inobasyon.
General Reinforcement Learning (General RL), sa mas malawak na mga pangkaraniwang gawain para sa RL.

Asynchronous Reinforcement Learning: Upang hindi na "nagpapahinga" ang GPU

Ang tradisyonal na RL training ay synchronous: nangongolekta ng isang batch ng data → kinakalkula ang gantimpala → ina-update ang modelo → muling nangongolekta. Ito ay walang problema sa mga maikling gawain, ngunit ang mga gawain ng agent ay kadalasang nangangailangan ng ilang dosenang interaksyon.

Malalim na interpretasyon ng mga resulta ng eksperimento

Pangunahing benchmark comparison

| Benchmark | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Buod

Ang papel na ito ng GLM-5 ay puno ng impormasyon. Sa pag-iwan sa mga tiyak na numero, ang pangunahing mensahe na ipinapahayag nito ay: ang susunod na larangan ng labanan para sa malalaking modelo ay nasa "paggawa" at hindi lamang "pagsagot ng mga tanong".

Sa antas ng kompetisyon, pinatunayan ng GLM-5 ang kakayahan ng mga koponang AI sa Tsina sa mga nangungunang pananaliksik sa malalaking modelo.

Impormasyon ng papel

Pamagat: GLM-5: mula sa Vibe Coding patungo sa Agentic Engineering
Institusyon: Zhiyu AI & Tsinghua University
Link: https://arxiv.org/abs/2602.15763

GLM-5：Kapag natutunan ng malalaking modelo na "magsulat ng code" nang mag-isa, mula sa Vibe Coding hanggang sa Agentic Engineering

GLM-5：Kapag natutunan ng malalaking modelo na "magsulat ng code" nang mag-isa, mula sa Vibe Coding hanggang sa Agentic Engineering

Bakit kailangan ang papel na ito?

Pangunahing kontribusyon: Tatlong pangunahing ideya

Arkitektura ng modelo: Gumawa ng "subtraction" sa balangkas ng MoE

Pangunahing configuration

Paano talaga gumagana ang DSA?

Proseso ng pagsasanay: Apat na yugto ng "level up"

Pre-training na yugto

Post-training na apat na hakbang

Asynchronous Reinforcement Learning: Upang hindi na "nagpapahinga" ang GPU

Malalim na interpretasyon ng mga resulta ng eksperimento

Pangunahing benchmark comparison

Buod

Impormasyon ng papel

You Might Also Like

Claude Code Buddy Modification Guide: Paano Makakuha ng Shiny Legendary Pet

Obsidian Naglunsad ng Defuddle, Itinataas ang Obsidian Web Clipper sa Isang Bagong Antas

OpenAI biglang nag-anunsyo ng "tatlong sa isa": Pagsasama ng browser + programming + ChatGPT, kinilala ang maling landas sa nakaraang taon

2026, huwag nang pilitin ang sarili sa 'disiplina'! Gawin ang 8 maliliit na bagay na ito, ang kalusugan ay darating nang natural

Ang mga ina na nagsisikap na magbawas ng timbang ngunit hindi nagtagumpay, tiyak na nagkamali dito

AI Browser 24小时稳定运行指南