GLM-5: Når store modeller lærer at 'skrive kode selv', fra Vibe Coding til Agentic Engineering

❝

🎯 Én sætning opsummering: Zhizhu AI har sammen med Tsinghua Universitet lanceret GLM-5 modellen med 744B parametre, som gennem DeepSeek Sparse Attention (DSA) komprimerer opmærksomhedsberegninger, anvender fuld asynkron forstærkningslæring (Async RL) til at forbedre træningseffektiviteten for lange opgaver, samt implementerer en flertrins eftertræningsproces, der lader store modeller udvikle sig fra 'Vibe Coding' til at kunne udføre reelle ingeniørprojekter som 'Agentic Engineering'.

Hvorfor har vi brug for dette papir?

Andrej Karpathy præsenterede i begyndelsen af 2025 et interessant koncept - Vibe Coding, hvilket betyder, at du blot skal beskrive kravene med naturligt sprog og 'føle' dig frem til at få AI til at skrive kode. Dette er faktisk den nuværende hovedoplevelse inden for AI-programmering: du siger en sætning, og modellen hjælper dig med at generere en kode, hvor resultatet afhænger af held.

Men problemet opstår: Ægte softwareudvikling er langt mere kompliceret end blot at 'skrive kode'. En rigtig ingeniør skal forstå projektarkitektur, fejlretning, afhængighedsstyring, håndtering af tværmodul samarbejde - alt dette kan ikke løses med 'et prompt, der giver en kode'. Det, som GLM-5-papiret ønsker at opnå, er at forvandle modellen fra 'en assistent, der hjælper dig med at skrive kode' til 'en ingeniør, der kan klare hele projektet selv'.

Dette er ikke et lille mål. For at nå det har Zhizhu-teamet foretaget mange innovationer inden for modelarkitektur, træningsprocesser og forstærkningslæringsalgoritmer. Denne fortolkning vil guide dig gennem disse tekniske detaljer.

Kernebidrag: Tre hovedpunkter

Før vi dykker ned i detaljerne, lad os klarlægge de tre kernebidrag fra GLM-5:

Bidrag Løser problemet Kerneidé DSA Sparse Attention 128K lang kontekst beregningsomkostninger eksploderer dynamisk vælger vigtige tokens, springer irrelevante over, sparer 1.5-2 gange beregningskraft Asynkron forstærkningslæringsramme lang opgave RL træning har GPU'er, der ofte er inaktive generering og træning er helt adskilt, pipeline-parallel Flertrins eftertræningsproces ræsonnering, kodning, agent mv. er svære at balancere SFT → ræsonnering RL → agent RL → generel RL, gradvist opbygge evner

Modelarkitektur: Gør 'subtraktion' på MoE's skelet

Grundkonfiguration

GLM-5 anvender Mixture-of-Experts (MoE) arkitektur, med i alt 744B parametre, men aktiverer kun ca. 40B parametre ved hver ræsonnering. Denne 'store og sparsomme' design er blevet en branchekonsensus - DeepSeek-V3/R1, Qwen3 har taget en lignende rute.

Hvordan fungerer DSA egentlig?

DSA's kerneidé kan forstås med en metafor: forestil dig, at du leder efter information i et bibliotek. Standard opmærksomhed er som at gennemgå hver bog i hele biblioteket og derefter beslutte, hvilke der er nyttige. Mens DSA mere ligner en erfaren bibliotekar - den bruger først Lightning Index til hurtigt at scanne boghylderne, låser op for nogle potentielt relevante områder, og læser derefter kun de specifikke afsnit i disse områder.

Træningsproces: Fire trin 'opgradering'

GLM-5's træningsproces er hovedfokus i dette papir, opdelt i fortræning og eftertræning i to store faser.

Fortræningsfase

Datasætstørrelse: 27T tokens, data blandingsforhold inkluderer websider, kode, akademiske artikler, bøger mv.
Konteksteudvidelse: gennem mellemtræning udvides konteksten fra 4K til 200K, ved hjælp af RoPE frekvensjustering
Annealingfase: i slutningen af fortræningen anvendes data af højere kvalitet til 'finjustering'

Eftertræning i fire trin

Dette er den mest karakteristiske del af GLM-5. GLM-5 har gennemført fire runder:

Supervised Fine-Tuning (SFT) finjustering med data af høj kvalitet.
Ræsonneringsforstærkningslæring (Reasoning RL) træning i matematik og kode ræsonneringsopgaver.
Agentic Forstærkningslæring (Agentic RL), dette er den nøgleinnovation.
Generel Forstærkningslæring (General RL), træning i bredere generelle opgaver.

Asynkron forstærkningslæring: Gør GPU'er ikke længere 'slappe af'

Traditionel RL træning er synchron: indsamle en batch data → beregne belønning → opdatere modellen → indsamle igen. Dette er ikke et problem i tilfælde af korte opgavetider, men agentopgaver kræver ofte mange interaktionstrin.

Eksperimentelle resultater dybdegående fortolkning

Hovedbenchmark sammenligning

Benchmark GLM-5 DeepSeek-V3.2 Claude Opus 4.5 Gemini 3 Pro GPT-5.2 MMLU-Pro 78.0 75.9 78.0 74.3 76.1 GPQA-Diamond 71.7 68.4 67.1 63.6 70.5 BrowseComp 57.1 32.0 26.3 25.1 46.9

Konklusion

GLM-5-papiret indeholder en stor mængde information. Uden at tale om de specifikke tal, er den centrale besked, det formidler: Den næste kampplads for store modeller ligger i 'at udføre opgaver' og ikke kun 'at besvare spørgsmål'.

På konkurrenceplan beviser GLM-5, at det kinesiske AI-team har konkurrenceevne inden for forskning i store modeller.

Papirinformation

Titel: GLM-5: fra Vibe Coding til Agentic Engineering
Institution: Zhizhu AI & Tsinghua Universitet
Link: https://arxiv.org/abs/2602.15763

GLM-5: Når store modeller lærer at 'skrive kode selv', fra Vibe Coding til Agentic Engineering

GLM-5: Når store modeller lærer at 'skrive kode selv', fra Vibe Coding til Agentic Engineering

Hvorfor har vi brug for dette papir?

Kernebidrag: Tre hovedpunkter

Modelarkitektur: Gør 'subtraktion' på MoE's skelet

Grundkonfiguration

Hvordan fungerer DSA egentlig?

Træningsproces: Fire trin 'opgradering'

Fortræningsfase

Eftertræning i fire trin

Asynkron forstærkningslæring: Gør GPU'er ikke længere 'slappe af'

Eksperimentelle resultater dybdegående fortolkning

Hovedbenchmark sammenligning

Konklusion

Papirinformation

You Might Also Like

Claude Code Buddy ændringsvejledning: Hvordan man får glitrende legendariske kæledyr

Obsidian har lanceret Defuddle, som tager Obsidian Web Clipper til nye højder

OpenAI pludselig annoncerer "tre-i-en": browser + programmering + ChatGPT fusionerer, internt erkender de, at de har taget fejl det forgangne år

2026, ikke længere tvinge sig selv til 'selvdisciplin'! Gør disse 8 små ting, så kommer sundheden naturligt

De mødre, der kæmper for at tabe sig, men ikke kan, falder bestemt her

AI Browser 24 timers stabil drift guide