GLM-5: kur modelet e mëdha mësojnë "të shkruajnë kod vetë", kalimi nga Vibe Coding në Agentic Engineering

❝

🎯 Përmbledhje në një fjali: Zhihui AI në bashkëpunim me Universitetin Tsinghua ka lançuar modelin GLM-5 me 744B parametra, duke përdorur DeepSeek Sparse Attention (DSA) për të reduktuar ngarkesën e llogaritjes së vëmendjes, të mësuarit të forcuar të plotë asinkron (Async RL) për të zgjidhur efikasitetin e trajnimit të detyrave të gjata, si dhe një proces trajnimi pasuese në shumë faza, duke lejuar që modeli i madh të evoluojë nga "Vibe Coding" në "Inxhinierin Agjent" që mund të përfundojë projekte inxhinierike reale.

Pse na nevojitet ky dokument?

Andrej Karpathy në fillim të vitit 2025 propozoi një koncept interesant - Vibe Coding, që do të thotë se ju thjesht duhet të përshkruani kërkesat me gjuhë natyrore, "në ndjenjë" lejoni AI-në të shkruajë kod. Kjo është në të vërtetë përvoja kryesore aktuale e programimit me AI: ju thoni një frazë, modeli ndihmon në gjenerimin e një kodi, sa i mirë është, varet nga fati.

Por problemi është: inxhinieria e vërtetë e softuerit është shumë më shumë se "shkruaj kod". Një inxhinier i vërtetë duhet të kuptojë arkitekturën e projektit, të debug-ojë gabimet, të menaxhojë varësitë, të trajtojë bashkëpunimin ndërmjet moduleve - këto nuk janë gjëra që mund të zgjidhen me "një prompt për një kod". Ky dokument GLM-5 ka për qëllim të bëjë që modeli të kalojë nga "ndihmës për të shkruar kod" në "inxhinier që mund të përfundojë të gjithë projektin vetë".

Ky nuk është një qëllim i vogël. Për ta arritur atë, ekipi i Zhihui ka bërë shumë inovacione në arkitekturën e modelit, procesin e trajnimit dhe algoritmet e të mësuarit të forcuar. Ky shpjegim do t'ju ndihmojë të kuptoni këto detaje teknike.

Kontributi kryesor: tri shpatë

Para se të thellohemi në detaje, le të sqarojmë tre kontributet kryesore të GLM-5:

Kontributi zgjidh problemin mendimi kryesor DSA vëmendje e rrallë 128K shpenzimet e llogaritjes së kontekstit shpërthejnë zgjedhjen dinamike të tokenëve të rëndësishëm, duke anashkaluar ato të pa lidhura, duke kursyer 1.5-2 herë fuqinë llogaritëse korniza e të mësuarit të forcuar asinkron gjatë trajnimit të detyrave të gjata GPU shumë të papërdorura gjenerimi dhe trajnimi të plotë të shkëputura, paralel në linjë procesi i trajnimit pasuese në shumë faza arsyetimi, kodimi, agjenti dhe aftësi të tjera të vështira për t'u menaxhuar SFT→ arsyetimi RL→ agjenti RL→ RL të përgjithshëm, duke shtuar gradualisht aftësitë

Arkitektura e modelit: duke bërë "zbritje" mbi skeletin e MoE

Konfigurimi bazë

GLM-5 përdor arkitekturën Mixture-of-Experts (MoE), me një total prej 744B parametrash, por gjatë çdo arsyetimi aktivizohen vetëm rreth 40B parametra. Ky dizajn "i madh dhe i rrallë" është bërë një konsensus në industrinë - DeepSeek-V3/R1, Qwen3 kanë ndjekur një rrugë të ngjashme.

Si funksionon DSA?

Ideja kryesore e DSA mund të kuptohet me një metaforë: imagjinoni se jeni në një bibliotekë duke kërkuar materiale. Vëmendja standarde është si të shfletoni çdo libër në të gjithë bibliotekën dhe pastaj të vendosni se cilat janë të dobishme. Ndërsa DSA është më shumë si një bibliotekar me përvojë - ai fillimisht përdor indeksuesin e shkëlqyer (Lightning Index) për të skanuar shpejt titujt e raftit, duke identifikuar disa zona të mundshme të lidhura, pastaj lexon me kujdes vetëm paragrafët specifikë në këto zona.

Procesi i trajnimit: katër faza "përmirësimi"

Procesi i trajnimit të GLM-5 është pjesa kryesore e këtij dokumenti, e ndarë në dy faza të mëdha: paratrainimi dhe trajnimi pasues.

Faza e paratrainimit

Shkalla e të dhënave: 27T token, përzierja e të dhënave përfshin faqe interneti, kod, punime akademike, libra etj.
Zgjerimi i kontekstit: përmes trajnimit të mesëm, konteksti zgjerohet gradualisht nga 4K në 200K, duke përdorur rregullimin e frekuencës RoPE
Faza e ngrohjes: në fund të paratrainimit, përdoren të dhëna më të cilësisë për "fino"

Katër hapat e trajnimit pasues

Kjo është pjesa më karakteristike e GLM-5. GLM-5 ka bërë katër raunde:

Rregullimi i mbikëqyrur (SFT) përdor të dhëna të cilësisë së lartë për rregullim.
Arsyetimi i të mësuarit të forcuar (Reasoning RL) bën trajnimin RL në detyrat e arsyetimit matematikor dhe kodit.
Arsyetimi i agjentit (Agentic RL), kjo është inovacioni kryesor.
Arsyetimi i përgjithshëm (General RL), bën RL në detyra më të gjera të përgjithshme.

Të mësuarit e forcuar asinkron: duke e bërë GPU-në të mos "përplaset"

Trajnimi tradicional i RL është sinkron: mbledh një grup të dhënash → llogarit shpërblimin → përditëson modelin → mbledh përsëri. Kjo nuk është problem në rastet kur koha e detyrës është e shkurtër, por detyrat e agjentëve shpesh kërkojnë disa hapa ndërveprimi.

Interpretimi i thellë i rezultateve eksperimentale

Krahasimi i kryesorëve të bazave

Baza GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

Përmbledhje

Ky dokument i GLM-5 ka shumë informacion. Pa marrë parasysh numrat specifikë, informacioni kryesor që përcjell është: fusha e ardhshme e modeleve të mëdha është "të punosh" dhe jo vetëm "të përgjigjesh pyetje".

Në aspektin e konkurrencës, GLM-5 dëshmon konkurrencën e ekipit të AI të Kinës në kërkimin në kufijtë e modeleve të mëdha.

Informacioni i dokumentit

Titulli: GLM-5: nga Vibe Coding në Inxhinierinë Agjente
Institucioni: Zhihui AI & Universiteti Tsinghua
Lidhja: https://arxiv.org/abs/2602.15763

GLM-5: kur modelet e mëdha mësojnë "të shkruajnë kod vetë", kalimi nga Vibe Coding në Agentic Engineering

GLM-5: kur modelet e mëdha mësojnë "të shkruajnë kod vetë", kalimi nga Vibe Coding në Agentic Engineering

Pse na nevojitet ky dokument?

Kontributi kryesor: tri shpatë

Arkitektura e modelit: duke bërë "zbritje" mbi skeletin e MoE

Konfigurimi bazë

Si funksionon DSA?

Procesi i trajnimit: katër faza "përmirësimi"

Faza e paratrainimit

Katër hapat e trajnimit pasues

Të mësuarit e forcuar asinkron: duke e bërë GPU-në të mos "përplaset"

Interpretimi i thellë i rezultateve eksperimentale

Krahasimi i kryesorëve të bazave

Përmbledhje

Informacioni i dokumentit

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian ka lançuar Defuddle, duke e çuar Obsidian Web Clipper në një nivel të ri

OpenAI papritur shpall "tre në një": shkrimi i shfletuesit + programimi + bashkimi i ChatGPT, brenda pranojnë se vitin e kaluar kanë bërë gabime

2026, mos e detyro veten "disiplinë"! Bëni këto 8 gjëra të vogla, shëndeti do të vijë natyrshëm

Mamat që përpiqen të humbin peshë dhe nuk arrijnë, patjetër që kanë rënë këtu

AI Browser 24-orësh Stabiliteti i Udhëzimeve