GLM-5: Wenn große Modelle lernen, "selbst Code zu schreiben", der Übergang von Vibe Coding zu Agentic Engineering

❝

🎯 Zusammenfassung in einem Satz: Zhipu AI hat in Zusammenarbeit mit der Tsinghua-Universität das GLM-5-Modell mit 744B Parametern eingeführt, das durch DeepSeek Sparse Attention (DSA) die Berechnung der Aufmerksamkeit komprimiert, durch vollständig asynchrone Verstärkungslernen (Async RL) die Effizienz des Trainings langer Aufgaben verbessert und durch einen mehrstufigen Nachtrainierungsprozess es großen Modellen ermöglicht, sich von "Vibe Coding" zu "Agentic Engineering" zu entwickeln, das in der Lage ist, echte Ingenieurprojekte eigenständig abzuschließen.

Warum ist dieses Papier wichtig?

Andrej Karpathy stellte Anfang 2025 ein interessantes Konzept vor – Vibe Coding, was bedeutet, dass man einfach die Anforderungen in natürlicher Sprache beschreibt und "nach Gefühl" die KI Code schreiben lässt. Dies ist tatsächlich die derzeitige Haupt-Erfahrung im AI-Programmieren: Man sagt einen Satz, das Modell hilft, einen Code zu generieren, und wie gut das Ergebnis ist, hängt ganz vom Glück ab.

Aber das Problem ist: Echte Softwareentwicklung ist bei weitem nicht so einfach wie "Code schreiben". Ein echter Ingenieur muss die Projektarchitektur verstehen, Fehler debuggen, Abhängigkeiten verwalten und die Zusammenarbeit zwischen Modulen koordinieren – all das kann nicht einfach mit "einem Prompt einen Code generieren" erledigt werden. Das Ziel dieses Papiers ist es, das Modell von "einem Helfer, der Code schreibt" zu einem "Ingenieur, der das gesamte Projekt eigenständig bewältigt" zu machen.

Das ist kein kleines Ziel. Um es zu erreichen, hat das Zhipu-Team viele Innovationen in der Modellarchitektur, im Trainingsprozess und in den Verstärkungslernalgorithmen vorgenommen. Diese Analyse wird Ihnen helfen, diese technischen Details zu verstehen.

Kernbeiträge: Drei Hauptansätze

Bevor wir in die Details eintauchen, lassen Sie uns die drei Kernbeiträge von GLM-5 klären:

| Beitrag | Gelöstes Problem | Kernidee | | --- | --- | --- | | DSA Sparse Attention | Explodierende Berechnungskosten bei 128K langen Kontexten | Dynamische Auswahl wichtiger Tokens, Überspringen irrelevanter, Einsparung von 1,5-2-facher Rechenleistung | | Asynchrones Verstärkungslernen | GPU ist während des langen Aufgaben-RL-Trainings oft inaktiv | Generierung und Training vollständig entkoppelt, Pipeline-ähnliche Parallelität | | Mehrstufiger Nachtrainierungsprozess | Schwierigkeiten, mehrere Fähigkeiten wie Inferenz, Kodierung und Agenten zu kombinieren | SFT → Inferenz RL → Agenten RL → allgemeines RL, schrittweise Fähigkeiten aufbauen |

Modellarchitektur: "Subtraktion" auf dem MoE-Rahmen

Grundkonfiguration

GLM-5 verwendet eine Mixture-of-Experts (MoE)-Architektur mit insgesamt 744B Parametern, aber bei jeder Inferenz werden nur etwa 40B Parameter aktiviert. Dieses "große und spärliche" Design ist bereits zum Branchenschema geworden – DeepSeek-V3/R1, Qwen3 haben ähnliche Wege eingeschlagen.

Wie funktioniert DSA genau?

Die Kernidee von DSA kann mit einer Metapher verstanden werden: Stellen Sie sich vor, Sie suchen in einer Bibliothek nach Informationen. Standardaufmerksamkeit ist wie das Durchblättern jedes Buches in der gesamten Bibliothek, um zu entscheiden, welche nützlich sind. DSA hingegen ist mehr wie ein erfahrener Bibliothekar – er scannt zuerst mit einem Blitz-Index (Lightning Index) schnell die Titel der Regale, identifiziert einige möglicherweise relevante Bereiche und liest dann nur die spezifischen Absätze in diesen Bereichen gründlich.

Trainingsprozess: Vierstufiges "Level-Up"

Der Trainingsprozess von GLM-5 ist das Herzstück dieses Papiers und besteht aus zwei Hauptphasen: Vortraining und Nachtraining.

Vortrainingsphase

Datengröße: 27T Tokens, Mischverhältnis der Daten umfasst Webseiten, Code, wissenschaftliche Arbeiten, Bücher usw.
Kontextvergrößerung: Durch Zwischen-Training wird der Kontext schrittweise von 4K auf 200K erweitert, unter Verwendung von RoPE-Frequenzanpassungen.
Abkühlphase: Am Ende des Vortrainings wird mit qualitativ hochwertigeren Daten eine "Feinabstimmung" vorgenommen.

Nachtrainierungsquartett

Dies ist der charakteristischste Teil von GLM-5. GLM-5 hat vier Runden durchgeführt:

Überwachtes Feintuning (SFT) mit hochwertigen Anweisungsdaten.
Inferenz-Verstärkungslernen (Reasoning RL), RL-Training bei mathematischen und Code-Inferenzaufgaben.
Agenten-Verstärkungslernen (Agentic RL), dies ist die entscheidende Innovation.
Allgemeines Verstärkungslernen (General RL), RL in breiteren allgemeinen Aufgaben.

Asynchrones Verstärkungslernen: GPU nicht mehr "faul" lassen

Traditionelles RL-Training ist synchron: Eine Datenmenge sammeln → Belohnung berechnen → Modell aktualisieren → erneut sammeln. Dies ist bei kurzen Aufgabenzeiten kein Problem, aber Agentenaufgaben erfordern oft Dutzende von Interaktionen.

Tiefenanalyse der Experimentergebnisse

Hauptbenchmark-Vergleich

| Benchmark | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Fazit

Das Papier zu GLM-5 enthält eine Fülle von Informationen. Abgesehen von den spezifischen Zahlen vermittelt es die zentrale Botschaft: Das nächste Schlachtfeld großer Modelle liegt im "Arbeiten" und nicht nur im "Fragen beantworten".

Auf der Wettbewerbsseite beweist GLM-5 die Wettbewerbsfähigkeit des chinesischen AI-Teams in der Spitzenforschung großer Modelle.

Papierinformationen

Titel: GLM-5: von Vibe Coding zu Agentic Engineering
Institution: Zhipu AI & Tsinghua Universität
Link: https://arxiv.org/abs/2602.15763

GLM-5: Wenn große Modelle lernen, "selbst Code zu schreiben", der Übergang von Vibe Coding zu Agentic Engineering

GLM-5: Wenn große Modelle lernen, "selbst Code zu schreiben", der Übergang von Vibe Coding zu Agentic Engineering

Warum ist dieses Papier wichtig?

Kernbeiträge: Drei Hauptansätze

Modellarchitektur: "Subtraktion" auf dem MoE-Rahmen

Grundkonfiguration

Wie funktioniert DSA genau?

Trainingsprozess: Vierstufiges "Level-Up"

Vortrainingsphase

Nachtrainierungsquartett

Asynchrones Verstärkungslernen: GPU nicht mehr "faul" lassen

Tiefenanalyse der Experimentergebnisse

Hauptbenchmark-Vergleich

Fazit

Papierinformationen

You Might Also Like

Claude Code Buddy Änderungsanleitung: Wie man ein schimmerndes legendäres Haustier erhält

Obsidian hat Defuddle eingeführt und den Obsidian Web Clipper auf ein neues Niveau gehoben

OpenAI kündigt plötzlich "Drei-in-eins" an: Fusion von Browser + Programmierung + ChatGPT, interne Anerkennung von Fehlern im vergangenen Jahr

2026, sich nicht mehr selbst zur 'Disziplin' zwingen! Machen Sie diese 8 kleinen Dinge gut, Gesundheit kommt von ganz allein

Die Mütter, die sich bemühen abzunehmen und es nicht schaffen, scheitern definitiv hier

AI Browser 24 Stunden Stabilitätsleitfaden