GLM-5: Når store modeller lærer å "skrive kode selv", fra Vibe Coding til Agentic Engineering

2/26/2026
4 min read

GLM-5: Når store modeller lærer å "skrive kode selv", fra Vibe Coding til Agentic Engineering

🎯 Oppsummering i én setning: Zhipu AI har sammen med Tsinghua University lansert GLM-5-modellen med 744B parametere, som gjennom DeepSeek Sparse Attention (DSA) reduserer beregningsmengden for oppmerksomhet, full asynkron forsterkningslæring (Async RL) forbedrer effektiviteten i langvarig oppgaveopplæring, og en flertrinns ettertreningprosess lar store modeller utvikle seg fra "Vibe Coding" til å bli "Agentic Engineering" som kan fullføre ekte ingeniørprosjekter selvstendig.

Hvorfor trenger vi dette papiret?

Andrej Karpathy introduserte et interessant konsept tidlig i 2025 - Vibe Coding, som betyr at du bare trenger å beskrive kravene med naturlig språk, og "føle" at AI skal skrive koden. Dette er faktisk den nåværende hovedopplevelsen av AI-programmering: du sier en setning, og modellen hjelper deg med å generere en kodebit, hvor godt det fungerer avhenger helt av flaks.

Men problemet er: Ekte programvareutvikling er langt mer enn bare "å skrive kode". En ekte ingeniør må forstå prosjektarkitektur, feilsøke feil, administrere avhengigheter, håndtere samarbeid på tvers av moduler - dette kan ikke løses med "en prompt gir en kodebit". Målet med GLM-5-papiret er å gjøre modellen fra "en assistent som hjelper deg med å skrive kode" til "en ingeniør som kan håndtere hele prosjektet selvstendig".

Dette er ikke et lite mål. For å oppnå det har Zhipu-teamet gjort betydelige innovasjoner innen modellarkitektur, treningsprosesser og forsterkningslæringsalgoritmer. Denne tolkningen vil ta deg gjennom disse tekniske detaljene.

Kjernebidrag: Tre hovedpunkter

Før vi dykker inn i detaljene, la oss klargjøre de tre kjernebidragene til GLM-5:

Bidrag Løste problem Kjerneidé DSA Sparse Attention 128K lang kontekst beregningskostnader eksploderer dynamisk velge viktige tokens, hoppe over irrelevante, spare 1.5-2 ganger beregningskraft Asynkron forsterkningslæringsramme Lang oppgave RL-trening har GPU mye ledig tid generering og trening helt avkoblet, pipeline-parallellisering Flertrinns ettertreningprosess Resonnement, koding, agent og andre evner vanskelig å balansere SFT→Resonnement RL→Agent RL→Generell RL, gradvis legge til evner

Modellarkitektur: Gjøre "subtraksjon" på MoE-rammeverket

Grunnkonfigurasjon

GLM-5 bruker Mixture-of-Experts (MoE)-arkitektur, totalt 744B parametere, men aktiverer bare omtrent 40B parametere under hver inferens. Denne "store og sparsomme" designen har blitt en bransjestandard - DeepSeek-V3/R1, Qwen3 har fulgt en lignende rute.

Hvordan fungerer DSA egentlig?

Kjernen i DSA kan forstås med en metafor: forestill deg at du leter etter informasjon på et bibliotek. Standard oppmerksomhet er som å bla gjennom hver bok i hele biblioteket og deretter bestemme hvilke som er nyttige. Mens DSA er mer som en erfaren bibliotekar - den bruker først Lightning Index for raskt å skanne bokhyllenes titler, låser seg på noen potensielt relevante områder, og deretter leser den nøye spesifikke avsnitt i disse områdene.

Treningsprosess: Firetrinns "oppgradering"

Treningsprosessen for GLM-5 er hovedfokuset i dette papiret, delt inn i fortrening og ettertrening i to store faser.

Fortreningfase

  • Datasettstørrelse: 27T token, datamiksingsforhold inkluderer nettsider, kode, akademiske artikler, bøker osv.
  • Kontekstekspansjon: Gjennom mellomtrening utvides konteksten fra 4K til 200K, ved hjelp av RoPE-frekvensjustering.
  • Annealingfase: På slutten av fortreningen brukes høyere kvalitet data for "finjustering".

Ettertrening i fire trinn

Dette er den mest karakteristiske delen av GLM-5. GLM-5 har gjort fire runder:

  • Supervisert finjustering (SFT) bruker høy kvalitet instruksjonsdata for finjustering.
  • Resonnement forsterkningslæring (Reasoning RL) gjør RL-trening på matematiske og kode-resonnement oppgaver.
  • Agentisk forsterkningslæring (Agentic RL), dette er den kritiske innovasjonen.
  • Generell forsterkningslæring (General RL), gjør RL på bredere generelle oppgaver.

Asynkron forsterkningslæring: Få GPU til å slutte å "slappe av"

Tradisjonell RL-trening er synkron: samle en gruppe data → beregne belønning → oppdatere modellen → samle igjen. Dette er ikke et problem når oppgavene tar kort tid, men agentoppgaver krever ofte titalls interaksjoner.

Dyp tolkning av eksperimentelle resultater

Hovedbenchmark sammenligning

Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9

Oppsummering

GLM-5-papiret inneholder mye informasjon. Uten å gå inn på spesifikke tall, er den kjerneinformasjonen den formidler: Den neste slagmarken for store modeller er "å jobbe" og ikke bare "å svare på spørsmål".

På konkurransenivå beviser GLM-5 den kinesiske AI-teamets konkurranseevne innen forskning på store modeller.

Papirinformasjon

Published in Technology

You Might Also Like