GLM-5: Kun suuret mallit oppivat 'itse kirjoittamaan koodia', siirtyminen Vibe Codingista Agentic Engineeringiin

❝

🎯 Yhteenveto yhdellä lauseella: Zhihui AI ja Tsinghua-yliopisto ovat julkaisseet 744B parametrin GLM-5-mallin, joka hyödyntää DeepSeek Sparse Attention (DSA) -menetelmää huomion laskentakuormituksen vähentämiseksi, täysin asynkronista vahvistusoppimista (Async RL) pitkien tehtävien koulutustehokkuuden parantamiseksi sekä monivaiheista jälkikoulutusprosessia, jotta suuri malli voi kehittyä 'ilmapiirikoodauksesta' (Vibe Coding) 'älykkääksi insinööriksi' (Agentic Engineering), joka pystyy itsenäisesti suorittamaan todellisia projektitehtäviä.

Miksi tämä tutkimus on tarpeellinen?

Andrej Karpathy esitti vuoden 2025 alussa mielenkiintoisen käsitteen - Vibe Coding, joka tarkoittaa, että sinun tarvitsee vain kuvata vaatimukset luonnollisella kielellä ja 'tunteella' antaa AI:n kirjoittaa koodia. Tämä on todellakin nykyinen AI-ohjelmoinnin valtavirta: sanot lauseen, malli auttaa sinua tuottamaan koodinpätkän, ja lopputulos riippuu täysin onnesta.

Mutta ongelma on tässä: todellinen ohjelmointi ei ole vain 'koodin kirjoittamista'. Todellisen insinöörin on ymmärrettävä projektin rakenne, virheiden debuggaus, riippuvuuksien hallinta, moduulien välinen yhteistyö - nämä kaikki eivät ole asioita, jotka voi ratkaista 'yhdellä promptilla koodinpätkä'. GLM-5:n tutkimuksen tavoite on muuttaa malli 'koodia kirjoittavasta avustajasta' 'insinööriksi, joka pystyy itsenäisesti hoitamaan koko projektin'.

Tämä ei ole pieni tavoite. Sen saavuttamiseksi Zhihui-tiimi on tehnyt runsaasti innovaatioita mallin rakenteessa, koulutusprosessissa ja vahvistusoppimisalgoritmeissa. Tämä tulkinta vie sinut purkamaan näitä teknisiä yksityiskohtia.

Keskeiset kontribuutiot: Kolme päämenetelmää

Ennen kuin syvennymme yksityiskohtiin, selvennetään GLM-5:n kolme keskeistä kontribuutiota:

| Kontribuutio | Ratkaistava ongelma | Keskeinen ajatus | | --- | --- | --- | | DSA-sparse attention | 128K pitkän kontekstin laskentakuormitus räjähtää | Dynaaminen valinta tärkeistä token'eista, ohitetaan epäolennaiset, säästetään 1.5-2 kertaa laskentatehoa | | Asynkroninen vahvistusoppimiskehys | Pitkät tehtävät RL-koulutuksessa GPU:lla on paljon tyhjää aikaa | Generointi ja koulutus täysin eristetty, putkistomaisesti rinnakkain | | Monivaiheinen jälkikoulutusprosessi | Informaation, koodauksen, älykkäiden kykyjen yhteensovittaminen on vaikeaa | SFT → Inference RL → Agentic RL → General RL, kykyjen asteittainen lisääminen |

Mallin rakenne: 'Vähennys' MoE-rakenteen päällä

Peruskonfiguraatio

GLM-5 käyttää Mixture-of-Experts (MoE) -rakennetta, jossa on yhteensä 744B parametria, mutta jokaisessa päättelyssä aktivoidaan vain noin 40B parametria. Tämä 'suuri ja harva' -suunnittelu on jo tullut alan yhteiseksi näkemykseksi - DeepSeek-V3/R1, Qwen3 ovat seuranneet samanlaista reittiä.

Miten DSA todella toimii?

DSA:n keskeinen ajatus voidaan ymmärtää vertauskuvalla: Kuvittele, että etsit tietoa kirjastosta. Standard attention on kuin koko kirjaston jokaisen kirjan läpikäyminen ja sitten päättäminen, mitkä ovat hyödyllisiä. DSA on enemmän kuin kokenut kirjastonhoitaja - se käyttää ensin Lightning Index -menetelmää nopeasti skannatakseen hyllyjen otsikot, lukitsee muutaman mahdollisesti relevantin alueen ja lukee sitten vain tarkasti näiden alueiden erityisiä kappaleita.

Koulutusprosessi: Nelivaiheinen 'tason nosto'

GLM-5:n koulutusprosessi on tämän tutkimuksen pääosuus, ja se jakautuu kahteen päävaiheeseen: ennakkokoulutus ja jälkikoulutus.

Ennakkokoulutusvaihe

Tietomäärä: 27T tokenia, tietojen sekoitusprosentti sisältää verkkosivut, koodit, tieteelliset artikkelit, kirjat jne.
Kontekstin laajentaminen: Keskikoulutuksen avulla konteksti laajennetaan vaiheittain 4K:sta 200K:een, käyttäen RoPE-taajuusmuutosta.
Kylmävaihe: Ennakkokoulutuksen lopussa käytetään korkealaatuisempia tietoja 'viimeistelyyn'.

Jälkikoulutuksen nelivaiheinen prosessi

Tämä on GLM-5:n erikoisin osa. GLM-5 suoritti neljä kierrosta:

Valvottu hienosäätö (SFT) hienosäätää korkealaatuisilla ohjeistustiedoilla.
Päätöksentekovahvistusoppiminen (Reasoning RL) tekee RL-koulutusta matemaattisissa ja koodin päätöksentekotehtävissä.
Älykkään agentin vahvistusoppiminen (Agentic RL), tämä on keskeinen innovaatio.
Yleinen vahvistusoppiminen (General RL), tekee RL:ää laajemmissa yleistehtävissä.

Asynkroninen vahvistusoppiminen: Estetään GPU:ta 'laiskottelemasta'

Perinteinen RL-koulutus on synkronista: kerätään joukko tietoja → lasketaan palkkiot → päivitetään malli → kerätään taas. Tämä ei ole ongelma lyhyiden tehtävien kohdalla, mutta älykkäät agenttitehtävät vaativat usein kymmeniä vuorovaikutuksia.

Kokeelliset tulokset syvällisessä tarkastelussa

Päävertailut

| Vertailu | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Yhteenveto

GLM-5:n tutkimus on erittäin informatiivinen. Jättämättä tarkkoja lukuja huomioimatta, sen ydinviesti on: suuret mallit seuraava taistelu on 'työn tekemisessä' eikä vain 'kysymyksiin vastaamisessa'.

Kilpailun näkökulmasta GLM-5 todistaa Kiinan AI-tiimien kilpailukyvyn suurten mallien eturintaman tutkimuksessa.

Tutkimustiedot

Otsikko: GLM-5: from Vibe Coding to Agentic Engineering
Organisaatiot: Zhihui AI & Tsinghua-yliopisto
Linkki: https://arxiv.org/abs/2602.15763

GLM-5: Kun suuret mallit oppivat 'itse kirjoittamaan koodia', siirtyminen Vibe Codingista Agentic Engineeringiin

GLM-5: Kun suuret mallit oppivat 'itse kirjoittamaan koodia', siirtyminen Vibe Codingista Agentic Engineeringiin

Miksi tämä tutkimus on tarpeellinen?

Keskeiset kontribuutiot: Kolme päämenetelmää

Mallin rakenne: 'Vähennys' MoE-rakenteen päällä

Peruskonfiguraatio

Miten DSA todella toimii?

Koulutusprosessi: Nelivaiheinen 'tason nosto'

Ennakkokoulutusvaihe

Jälkikoulutuksen nelivaiheinen prosessi

Asynkroninen vahvistusoppiminen: Estetään GPU:ta 'laiskottelemasta'

Kokeelliset tulokset syvällisessä tarkastelussa

Päävertailut

Yhteenveto

Tutkimustiedot

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian julkaisi Defuddlen, joka vie Obsidian Web Clipperin uudelle tasolle

OpenAI yllättäen ilmoittaa "kolme yhdessä": selain + ohjelmointi + ChatGPT yhdistyvät, sisäisesti myönnetään, että viime vuosi meni pieleen

2026, älä pakota itseäsi 'itsekuriksi'! Tee nämä 8 pientä asiaa, terveys tulee luonnostaan

Ne äidit, jotka yrittävät laihtua mutta eivät onnistu, kompastuvat varmasti tähän

AI Browser 24小时稳定运行指南