GLM-5: Når store modeller lærer at 'skrive kode selv', fra Vibe Coding til Agentic Engineering
GLM-5: Når store modeller lærer at 'skrive kode selv', fra Vibe Coding til Agentic Engineering
❝
🎯 Én sætning opsummering: Zhizhu AI har sammen med Tsinghua Universitet lanceret GLM-5 modellen med 744B parametre, som gennem DeepSeek Sparse Attention (DSA) komprimerer opmærksomhedsberegninger, anvender fuld asynkron forstærkningslæring (Async RL) til at forbedre træningseffektiviteten for lange opgaver, samt implementerer en flertrins eftertræningsproces, der lader store modeller udvikle sig fra 'Vibe Coding' til at kunne udføre reelle ingeniørprojekter som 'Agentic Engineering'.
Hvorfor har vi brug for dette papir?
Andrej Karpathy præsenterede i begyndelsen af 2025 et interessant koncept - Vibe Coding, hvilket betyder, at du blot skal beskrive kravene med naturligt sprog og 'føle' dig frem til at få AI til at skrive kode. Dette er faktisk den nuværende hovedoplevelse inden for AI-programmering: du siger en sætning, og modellen hjælper dig med at generere en kode, hvor resultatet afhænger af held.
Men problemet opstår: Ægte softwareudvikling er langt mere kompliceret end blot at 'skrive kode'. En rigtig ingeniør skal forstå projektarkitektur, fejlretning, afhængighedsstyring, håndtering af tværmodul samarbejde - alt dette kan ikke løses med 'et prompt, der giver en kode'. Det, som GLM-5-papiret ønsker at opnå, er at forvandle modellen fra 'en assistent, der hjælper dig med at skrive kode' til 'en ingeniør, der kan klare hele projektet selv'.
Dette er ikke et lille mål. For at nå det har Zhizhu-teamet foretaget mange innovationer inden for modelarkitektur, træningsprocesser og forstærkningslæringsalgoritmer. Denne fortolkning vil guide dig gennem disse tekniske detaljer.
Kernebidrag: Tre hovedpunkter
Før vi dykker ned i detaljerne, lad os klarlægge de tre kernebidrag fra GLM-5:
Bidrag Løser problemet Kerneidé DSA Sparse Attention 128K lang kontekst beregningsomkostninger eksploderer dynamisk vælger vigtige tokens, springer irrelevante over, sparer 1.5-2 gange beregningskraft Asynkron forstærkningslæringsramme lang opgave RL træning har GPU'er, der ofte er inaktive generering og træning er helt adskilt, pipeline-parallel Flertrins eftertræningsproces ræsonnering, kodning, agent mv. er svære at balancere SFT → ræsonnering RL → agent RL → generel RL, gradvist opbygge evner
Modelarkitektur: Gør 'subtraktion' på MoE's skelet
Grundkonfiguration
GLM-5 anvender Mixture-of-Experts (MoE) arkitektur, med i alt 744B parametre, men aktiverer kun ca. 40B parametre ved hver ræsonnering. Denne 'store og sparsomme' design er blevet en branchekonsensus - DeepSeek-V3/R1, Qwen3 har taget en lignende rute.
Hvordan fungerer DSA egentlig?
DSA's kerneidé kan forstås med en metafor: forestil dig, at du leder efter information i et bibliotek. Standard opmærksomhed er som at gennemgå hver bog i hele biblioteket og derefter beslutte, hvilke der er nyttige. Mens DSA mere ligner en erfaren bibliotekar - den bruger først Lightning Index til hurtigt at scanne boghylderne, låser op for nogle potentielt relevante områder, og læser derefter kun de specifikke afsnit i disse områder.
Træningsproces: Fire trin 'opgradering'
GLM-5's træningsproces er hovedfokus i dette papir, opdelt i fortræning og eftertræning i to store faser.
Fortræningsfase
- Datasætstørrelse: 27T tokens, data blandingsforhold inkluderer websider, kode, akademiske artikler, bøger mv.
- Konteksteudvidelse: gennem mellemtræning udvides konteksten fra 4K til 200K, ved hjælp af RoPE frekvensjustering
- Annealingfase: i slutningen af fortræningen anvendes data af højere kvalitet til 'finjustering'
Eftertræning i fire trin
Dette er den mest karakteristiske del af GLM-5. GLM-5 har gennemført fire runder:
- Supervised Fine-Tuning (SFT) finjustering med data af høj kvalitet.
- Ræsonneringsforstærkningslæring (Reasoning RL) træning i matematik og kode ræsonneringsopgaver.
- Agentic Forstærkningslæring (Agentic RL), dette er den nøgleinnovation.
- Generel Forstærkningslæring (General RL), træning i bredere generelle opgaver.
Asynkron forstærkningslæring: Gør GPU'er ikke længere 'slappe af'
Traditionel RL træning er synchron: indsamle en batch data → beregne belønning → opdatere modellen → indsamle igen. Dette er ikke et problem i tilfælde af korte opgavetider, men agentopgaver kræver ofte mange interaktionstrin.
Eksperimentelle resultater dybdegående fortolkning
Hovedbenchmark sammenligning
Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9
Konklusion
GLM-5-papiret indeholder en stor mængde information. Uden at tale om de specifikke tal, er den centrale besked, det formidler: Den næste kampplads for store modeller ligger i 'at udføre opgaver' og ikke kun 'at besvare spørgsmål'.
På konkurrenceplan beviser GLM-5, at det kinesiske AI-team har konkurrenceevne inden for forskning i store modeller.
Papirinformation
- Titel: GLM-5: fra Vibe Coding til Agentic Engineering
- Institution: Zhizhu AI & Tsinghua Universitet
- Link: https://arxiv.org/abs/2602.15763

