GLM-5: kur modelet e mëdha mësojnë "të shkruajnë kod vetë", kalimi nga Vibe Coding në Agentic Engineering
GLM-5: kur modelet e mëdha mësojnë "të shkruajnë kod vetë", kalimi nga Vibe Coding në Agentic Engineering
❝
🎯 Përmbledhje në një fjali: Zhihui AI në bashkëpunim me Universitetin Tsinghua ka lançuar modelin GLM-5 me 744B parametra, duke përdorur DeepSeek Sparse Attention (DSA) për të reduktuar ngarkesën e llogaritjes së vëmendjes, të mësuarit të forcuar të plotë asinkron (Async RL) për të zgjidhur efikasitetin e trajnimit të detyrave të gjata, si dhe një proces trajnimi pasuese në shumë faza, duke lejuar që modeli i madh të evoluojë nga "Vibe Coding" në "Inxhinierin Agjent" që mund të përfundojë projekte inxhinierike reale.
Pse na nevojitet ky dokument?
Andrej Karpathy në fillim të vitit 2025 propozoi një koncept interesant - Vibe Coding, që do të thotë se ju thjesht duhet të përshkruani kërkesat me gjuhë natyrore, "në ndjenjë" lejoni AI-në të shkruajë kod. Kjo është në të vërtetë përvoja kryesore aktuale e programimit me AI: ju thoni një frazë, modeli ndihmon në gjenerimin e një kodi, sa i mirë është, varet nga fati.
Por problemi është: inxhinieria e vërtetë e softuerit është shumë më shumë se "shkruaj kod". Një inxhinier i vërtetë duhet të kuptojë arkitekturën e projektit, të debug-ojë gabimet, të menaxhojë varësitë, të trajtojë bashkëpunimin ndërmjet moduleve - këto nuk janë gjëra që mund të zgjidhen me "një prompt për një kod". Ky dokument GLM-5 ka për qëllim të bëjë që modeli të kalojë nga "ndihmës për të shkruar kod" në "inxhinier që mund të përfundojë të gjithë projektin vetë".
Ky nuk është një qëllim i vogël. Për ta arritur atë, ekipi i Zhihui ka bërë shumë inovacione në arkitekturën e modelit, procesin e trajnimit dhe algoritmet e të mësuarit të forcuar. Ky shpjegim do t'ju ndihmojë të kuptoni këto detaje teknike.
Kontributi kryesor: tri shpatë
Para se të thellohemi në detaje, le të sqarojmë tre kontributet kryesore të GLM-5:
Kontributi zgjidh problemin mendimi kryesor DSA vëmendje e rrallë 128K shpenzimet e llogaritjes së kontekstit shpërthejnë zgjedhjen dinamike të tokenëve të rëndësishëm, duke anashkaluar ato të pa lidhura, duke kursyer 1.5-2 herë fuqinë llogaritëse korniza e të mësuarit të forcuar asinkron gjatë trajnimit të detyrave të gjata GPU shumë të papërdorura gjenerimi dhe trajnimi të plotë të shkëputura, paralel në linjë procesi i trajnimit pasuese në shumë faza arsyetimi, kodimi, agjenti dhe aftësi të tjera të vështira për t'u menaxhuar SFT→ arsyetimi RL→ agjenti RL→ RL të përgjithshëm, duke shtuar gradualisht aftësitë
Arkitektura e modelit: duke bërë "zbritje" mbi skeletin e MoE
Konfigurimi bazë
GLM-5 përdor arkitekturën Mixture-of-Experts (MoE), me një total prej 744B parametrash, por gjatë çdo arsyetimi aktivizohen vetëm rreth 40B parametra. Ky dizajn "i madh dhe i rrallë" është bërë një konsensus në industrinë - DeepSeek-V3/R1, Qwen3 kanë ndjekur një rrugë të ngjashme.
Si funksionon DSA?
Ideja kryesore e DSA mund të kuptohet me një metaforë: imagjinoni se jeni në një bibliotekë duke kërkuar materiale. Vëmendja standarde është si të shfletoni çdo libër në të gjithë bibliotekën dhe pastaj të vendosni se cilat janë të dobishme. Ndërsa DSA është më shumë si një bibliotekar me përvojë - ai fillimisht përdor indeksuesin e shkëlqyer (Lightning Index) për të skanuar shpejt titujt e raftit, duke identifikuar disa zona të mundshme të lidhura, pastaj lexon me kujdes vetëm paragrafët specifikë në këto zona.
Procesi i trajnimit: katër faza "përmirësimi"
Procesi i trajnimit të GLM-5 është pjesa kryesore e këtij dokumenti, e ndarë në dy faza të mëdha: paratrainimi dhe trajnimi pasues.
Faza e paratrainimit
- Shkalla e të dhënave: 27T token, përzierja e të dhënave përfshin faqe interneti, kod, punime akademike, libra etj.
- Zgjerimi i kontekstit: përmes trajnimit të mesëm, konteksti zgjerohet gradualisht nga 4K në 200K, duke përdorur rregullimin e frekuencës RoPE
- Faza e ngrohjes: në fund të paratrainimit, përdoren të dhëna më të cilësisë për "fino"
Katër hapat e trajnimit pasues
Kjo është pjesa më karakteristike e GLM-5. GLM-5 ka bërë katër raunde:
- Rregullimi i mbikëqyrur (SFT) përdor të dhëna të cilësisë së lartë për rregullim.
- Arsyetimi i të mësuarit të forcuar (Reasoning RL) bën trajnimin RL në detyrat e arsyetimit matematikor dhe kodit.
- Arsyetimi i agjentit (Agentic RL), kjo është inovacioni kryesor.
- Arsyetimi i përgjithshëm (General RL), bën RL në detyra më të gjera të përgjithshme.
Të mësuarit e forcuar asinkron: duke e bërë GPU-në të mos "përplaset"
Trajnimi tradicional i RL është sinkron: mbledh një grup të dhënash → llogarit shpërblimin → përditëson modelin → mbledh përsëri. Kjo nuk është problem në rastet kur koha e detyrës është e shkurtër, por detyrat e agjentëve shpesh kërkojnë disa hapa ndërveprimi.
Interpretimi i thellë i rezultateve eksperimentale
Krahasimi i kryesorëve të bazave
Baza GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
Përmbledhje
Ky dokument i GLM-5 ka shumë informacion. Pa marrë parasysh numrat specifikë, informacioni kryesor që përcjell është: fusha e ardhshme e modeleve të mëdha është "të punosh" dhe jo vetëm "të përgjigjesh pyetje".
Në aspektin e konkurrencës, GLM-5 dëshmon konkurrencën e ekipit të AI të Kinës në kërkimin në kufijtë e modeleve të mëdha.
Informacioni i dokumentit
- Titulli: GLM-5: nga Vibe Coding në Inxhinierinë Agjente
- Institucioni: Zhihui AI & Universiteti Tsinghua
- Lidhja: https://arxiv.org/abs/2602.15763

