GLM-5: Kun suuret mallit oppivat 'itse kirjoittamaan koodia', siirtyminen Vibe Codingista Agentic Engineeringiin

2/26/2026
4 min read

GLM-5: Kun suuret mallit oppivat 'itse kirjoittamaan koodia', siirtyminen Vibe Codingista Agentic Engineeringiin

🎯 Yhteenveto yhdellä lauseella: Zhihui AI ja Tsinghua-yliopisto ovat julkaisseet 744B parametrin GLM-5-mallin, joka hyödyntää DeepSeek Sparse Attention (DSA) -menetelmää huomion laskentakuormituksen vähentämiseksi, täysin asynkronista vahvistusoppimista (Async RL) pitkien tehtävien koulutustehokkuuden parantamiseksi sekä monivaiheista jälkikoulutusprosessia, jotta suuri malli voi kehittyä 'ilmapiirikoodauksesta' (Vibe Coding) 'älykkääksi insinööriksi' (Agentic Engineering), joka pystyy itsenäisesti suorittamaan todellisia projektitehtäviä.

Miksi tämä tutkimus on tarpeellinen?

Andrej Karpathy esitti vuoden 2025 alussa mielenkiintoisen käsitteen - Vibe Coding, joka tarkoittaa, että sinun tarvitsee vain kuvata vaatimukset luonnollisella kielellä ja 'tunteella' antaa AI:n kirjoittaa koodia. Tämä on todellakin nykyinen AI-ohjelmoinnin valtavirta: sanot lauseen, malli auttaa sinua tuottamaan koodinpätkän, ja lopputulos riippuu täysin onnesta.

Mutta ongelma on tässä: todellinen ohjelmointi ei ole vain 'koodin kirjoittamista'. Todellisen insinöörin on ymmärrettävä projektin rakenne, virheiden debuggaus, riippuvuuksien hallinta, moduulien välinen yhteistyö - nämä kaikki eivät ole asioita, jotka voi ratkaista 'yhdellä promptilla koodinpätkä'. GLM-5:n tutkimuksen tavoite on muuttaa malli 'koodia kirjoittavasta avustajasta' 'insinööriksi, joka pystyy itsenäisesti hoitamaan koko projektin'.

Tämä ei ole pieni tavoite. Sen saavuttamiseksi Zhihui-tiimi on tehnyt runsaasti innovaatioita mallin rakenteessa, koulutusprosessissa ja vahvistusoppimisalgoritmeissa. Tämä tulkinta vie sinut purkamaan näitä teknisiä yksityiskohtia.

Keskeiset kontribuutiot: Kolme päämenetelmää

Ennen kuin syvennymme yksityiskohtiin, selvennetään GLM-5:n kolme keskeistä kontribuutiota:

| Kontribuutio | Ratkaistava ongelma | Keskeinen ajatus | | --- | --- | --- | | DSA-sparse attention | 128K pitkän kontekstin laskentakuormitus räjähtää | Dynaaminen valinta tärkeistä token'eista, ohitetaan epäolennaiset, säästetään 1.5-2 kertaa laskentatehoa | | Asynkroninen vahvistusoppimiskehys | Pitkät tehtävät RL-koulutuksessa GPU:lla on paljon tyhjää aikaa | Generointi ja koulutus täysin eristetty, putkistomaisesti rinnakkain | | Monivaiheinen jälkikoulutusprosessi | Informaation, koodauksen, älykkäiden kykyjen yhteensovittaminen on vaikeaa | SFT → Inference RL → Agentic RL → General RL, kykyjen asteittainen lisääminen |

Mallin rakenne: 'Vähennys' MoE-rakenteen päällä

Peruskonfiguraatio

GLM-5 käyttää Mixture-of-Experts (MoE) -rakennetta, jossa on yhteensä 744B parametria, mutta jokaisessa päättelyssä aktivoidaan vain noin 40B parametria. Tämä 'suuri ja harva' -suunnittelu on jo tullut alan yhteiseksi näkemykseksi - DeepSeek-V3/R1, Qwen3 ovat seuranneet samanlaista reittiä.

Miten DSA todella toimii?

DSA:n keskeinen ajatus voidaan ymmärtää vertauskuvalla: Kuvittele, että etsit tietoa kirjastosta. Standard attention on kuin koko kirjaston jokaisen kirjan läpikäyminen ja sitten päättäminen, mitkä ovat hyödyllisiä. DSA on enemmän kuin kokenut kirjastonhoitaja - se käyttää ensin Lightning Index -menetelmää nopeasti skannatakseen hyllyjen otsikot, lukitsee muutaman mahdollisesti relevantin alueen ja lukee sitten vain tarkasti näiden alueiden erityisiä kappaleita.

Koulutusprosessi: Nelivaiheinen 'tason nosto'

GLM-5:n koulutusprosessi on tämän tutkimuksen pääosuus, ja se jakautuu kahteen päävaiheeseen: ennakkokoulutus ja jälkikoulutus.

Ennakkokoulutusvaihe

  • Tietomäärä: 27T tokenia, tietojen sekoitusprosentti sisältää verkkosivut, koodit, tieteelliset artikkelit, kirjat jne.
  • Kontekstin laajentaminen: Keskikoulutuksen avulla konteksti laajennetaan vaiheittain 4K:sta 200K:een, käyttäen RoPE-taajuusmuutosta.
  • Kylmävaihe: Ennakkokoulutuksen lopussa käytetään korkealaatuisempia tietoja 'viimeistelyyn'.

Jälkikoulutuksen nelivaiheinen prosessi

Tämä on GLM-5:n erikoisin osa. GLM-5 suoritti neljä kierrosta:

  • Valvottu hienosäätö (SFT) hienosäätää korkealaatuisilla ohjeistustiedoilla.
  • Päätöksentekovahvistusoppiminen (Reasoning RL) tekee RL-koulutusta matemaattisissa ja koodin päätöksentekotehtävissä.
  • Älykkään agentin vahvistusoppiminen (Agentic RL), tämä on keskeinen innovaatio.
  • Yleinen vahvistusoppiminen (General RL), tekee RL:ää laajemmissa yleistehtävissä.

Asynkroninen vahvistusoppiminen: Estetään GPU:ta 'laiskottelemasta'

Perinteinen RL-koulutus on synkronista: kerätään joukko tietoja → lasketaan palkkiot → päivitetään malli → kerätään taas. Tämä ei ole ongelma lyhyiden tehtävien kohdalla, mutta älykkäät agenttitehtävät vaativat usein kymmeniä vuorovaikutuksia.

Kokeelliset tulokset syvällisessä tarkastelussa

Päävertailut

| Vertailu | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Yhteenveto

GLM-5:n tutkimus on erittäin informatiivinen. Jättämättä tarkkoja lukuja huomioimatta, sen ydinviesti on: suuret mallit seuraava taistelu on 'työn tekemisessä' eikä vain 'kysymyksiin vastaamisessa'.

Kilpailun näkökulmasta GLM-5 todistaa Kiinan AI-tiimien kilpailukyvyn suurten mallien eturintaman tutkimuksessa.

Tutkimustiedot

Published in Technology

You Might Also Like