GLM-5: kai didieji modeliai išmoksta "rašyti kodą patys", perėjimas nuo Vibe Coding iki Agentic Engineering

2/26/2026
4 min read

GLM-5: kai didieji modeliai išmoksta "rašyti kodą patys", perėjimas nuo Vibe Coding iki Agentic Engineering

🎯 Vienu sakiniu apibendrinimas: Zhipu AI kartu su Tsinghua universitetu pristatė 744B parametrų GLM-5 modelį, kuris per DeepSeek Sparse Attention (DSA) sumažina dėmesio skaičiavimo apimtį, per visą asinkroninį stiprinimo mokymą (Async RL) sprendžia ilgų užduočių mokymo efektyvumą ir per daugiaetapį po mokymo procesą leidžia dideliems modeliams evoliucionuoti nuo "vibruojančio kodavimo" (Vibe Coding) iki galinčių savarankiškai atlikti realius inžinerinius projektus "agentų inžinieriaus" (Agentic Engineering).

Kodėl reikia šio dokumento?

Andrej Karpathy 2025 metų pradžioje pasiūlė įdomią koncepciją - Vibe Coding, tai reiškia, kad jums tereikia natūralia kalba apibūdinti poreikius, "pasikliauti jausmu" ir leisti AI rašyti kodą. Tai iš tiesų yra dabartinė AI programavimo pagrindinė patirtis: jūs pasakote sakinį, modelis padeda jums sugeneruoti kodo fragmentą, o rezultatas priklauso nuo sėkmės.

Bet problema yra ta: tikras programinės įrangos inžinerija toli gražu nėra tokia paprasta kaip "rašyti kodą". Tikras inžinierius turi suprasti projekto architektūrą, derinti klaidas, valdyti priklausomybę, spręsti tarpmodulinį bendradarbiavimą - visa tai nėra "vienas promptas, vienas kodo fragmentas". GLM-5 šis dokumentas siekia, kad modelis taptų "ne tik kodą rašančiu asistentu", bet ir "galinčiu savarankiškai išspręsti visą projektą inžinieriumi".

Tai nėra mažas tikslas. Norint jį pasiekti, Zhipu komanda atliko daug inovacijų modelio architektūroje, mokymo procese, stiprinimo mokymo algoritmuose. Ši analizė padės jums išsiaiškinti šiuos techninius aspektus.

Pagrindinis indėlis: trys pagrindiniai aspektai

Prieš gilindamiesi į detales, pirmiausia išskirkime tris pagrindinius GLM-5 indėlius:

| Indėlis | Sprendžiama problema | Pagrindinė mintis | | --- | --- | --- | | DSA retas dėmesys | 128K ilgo konteksto skaičiavimo išlaidos sprogsta | Dinamiškai pasirinkti svarbius token'us, praleisti nesusijusius, sutaupyti 1.5-2 kartus skaičiavimo galią | | Asinkroninis stiprinimo mokymo karkasas | Ilgų užduočių RL mokyme GPU daug laiko tuščiai | Generavimas ir mokymas visiškai atskirti, linijinis paralelizmas | | Daugiaetapis po mokymo procesas | Sunkiai suderinti įvairias gebėjimus, tokius kaip išvedimas, kodavimas, agentai | SFT→Išvedimas RL→Agentas RL→Bendras RL, palaipsniui didinant gebėjimus |

Modelio architektūra: "mažinimas" ant MoE karkaso

Pagrindinė konfigūracija

GLM-5 naudoja Mixture-of-Experts (MoE) architektūrą, bendra parametrų suma 744B, tačiau kiekvieno išvedimo metu aktyvuojama tik apie 40B parametrų. Šis "didelis ir retas" dizainas jau tapo pramonės sutarimu - DeepSeek-V3/R1, Qwen3 sekė panašiu keliu.

Kaip veikia DSA?

DSA pagrindinė mintis gali būti suprasta per metaforą: įsivaizduokite, kad ieškote informacijos bibliotekoje. Standartinis dėmesys yra tarsi perversti kiekvieną knygą visoje bibliotekoje ir tada nuspręsti, kurios yra naudingos. O DSA labiau primena patyrusį bibliotekininką - jis pirmiausia naudoja Lightning Index greitai nuskenuoti knygų lentynų pavadinimus, užfiksuoti kelias galimai susijusias sritis, tada tiksliai perskaityti konkrečius skyrius šiose srityse.

Mokymo procesas: keturių etapų "lygių kilimas"

GLM-5 mokymo procesas yra šio dokumento pagrindinė dalis, padalinta į priešmokymą ir po mokymo dvi dideles fazes.

Priešmokymo fazė

  • Duomenų apimtis: 27T token, duomenų mišinys apima tinklalapius, kodą, akademinius dokumentus, knygas ir kt.
  • Konteksto plėtra: per vidutinį mokymą kontekstas palaipsniui plečiamas nuo 4K iki 200K, naudojant RoPE dažnio reguliavimą.
  • Atšalimo fazė: priešmokymo pabaigoje naudojami aukštesnės kokybės duomenys "smulkiai apdirbti".

Po mokymo keturių žingsnių

Tai yra labiausiai išskirtinė GLM-5 dalis. GLM-5 atliko keturis etapus:

  • Supervizinis mikroderinimas (SFT) naudojant aukštos kokybės instrukcijų duomenis.
  • Išvedimo stiprinimo mokymas (Reasoning RL) matematikos ir kodo išvedimo užduotyse.
  • Agentų stiprinimo mokymas (Agentic RL), tai yra pagrindinė inovacija.
  • Bendras stiprinimo mokymas (General RL), atliekamas RL plačiau apimančiose užduotyse.

Asinkroninis stiprinimo mokymas: leiskite GPU nebe "tinginiauti"

Tradiciškai RL mokymas yra sinchroninis: surinkti duomenų partiją → apskaičiuoti atlygį → atnaujinti modelį → vėl surinkti. Tai neturi problemų trumpų užduočių atveju, tačiau agentų užduotys dažnai reikalauja dešimčių žingsnių sąveikos.

Eksperimentų rezultatų gili analizė

Pagrindinių standartų palyginimas

| Standartas | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Santrauka

GLM-5 šis dokumentas turi daug informacijos. Atsisakius konkrečių skaičių, jo perduodama pagrindinė žinia yra: didelių modelių kova kitame fronte yra "dirbti", o ne tik "atsakyti į klausimus".

Konkursiniu požiūriu, GLM-5 įrodė Kinijos AI komandos konkurencingumą didelių modelių pažangiosiose tyrimuose.

Dokumento informacija

Published in Technology

You Might Also Like