GLM-5: Wenn große Modelle lernen, "selbst Code zu schreiben", der Übergang von Vibe Coding zu Agentic Engineering

2/26/2026
4 min read

GLM-5: Wenn große Modelle lernen, "selbst Code zu schreiben", der Übergang von Vibe Coding zu Agentic Engineering

🎯 Zusammenfassung in einem Satz: Zhipu AI hat in Zusammenarbeit mit der Tsinghua-Universität das GLM-5-Modell mit 744B Parametern eingeführt, das durch DeepSeek Sparse Attention (DSA) die Berechnung der Aufmerksamkeit komprimiert, durch vollständig asynchrone Verstärkungslernen (Async RL) die Effizienz des Trainings langer Aufgaben verbessert und durch einen mehrstufigen Nachtrainierungsprozess es großen Modellen ermöglicht, sich von "Vibe Coding" zu "Agentic Engineering" zu entwickeln, das in der Lage ist, echte Ingenieurprojekte eigenständig abzuschließen.

Warum ist dieses Papier wichtig?

Andrej Karpathy stellte Anfang 2025 ein interessantes Konzept vor – Vibe Coding, was bedeutet, dass man einfach die Anforderungen in natürlicher Sprache beschreibt und "nach Gefühl" die KI Code schreiben lässt. Dies ist tatsächlich die derzeitige Haupt-Erfahrung im AI-Programmieren: Man sagt einen Satz, das Modell hilft, einen Code zu generieren, und wie gut das Ergebnis ist, hängt ganz vom Glück ab.

Aber das Problem ist: Echte Softwareentwicklung ist bei weitem nicht so einfach wie "Code schreiben". Ein echter Ingenieur muss die Projektarchitektur verstehen, Fehler debuggen, Abhängigkeiten verwalten und die Zusammenarbeit zwischen Modulen koordinieren – all das kann nicht einfach mit "einem Prompt einen Code generieren" erledigt werden. Das Ziel dieses Papiers ist es, das Modell von "einem Helfer, der Code schreibt" zu einem "Ingenieur, der das gesamte Projekt eigenständig bewältigt" zu machen.

Das ist kein kleines Ziel. Um es zu erreichen, hat das Zhipu-Team viele Innovationen in der Modellarchitektur, im Trainingsprozess und in den Verstärkungslernalgorithmen vorgenommen. Diese Analyse wird Ihnen helfen, diese technischen Details zu verstehen.

Kernbeiträge: Drei Hauptansätze

Bevor wir in die Details eintauchen, lassen Sie uns die drei Kernbeiträge von GLM-5 klären:

| Beitrag | Gelöstes Problem | Kernidee | | --- | --- | --- | | DSA Sparse Attention | Explodierende Berechnungskosten bei 128K langen Kontexten | Dynamische Auswahl wichtiger Tokens, Überspringen irrelevanter, Einsparung von 1,5-2-facher Rechenleistung | | Asynchrones Verstärkungslernen | GPU ist während des langen Aufgaben-RL-Trainings oft inaktiv | Generierung und Training vollständig entkoppelt, Pipeline-ähnliche Parallelität | | Mehrstufiger Nachtrainierungsprozess | Schwierigkeiten, mehrere Fähigkeiten wie Inferenz, Kodierung und Agenten zu kombinieren | SFT → Inferenz RL → Agenten RL → allgemeines RL, schrittweise Fähigkeiten aufbauen |

Modellarchitektur: "Subtraktion" auf dem MoE-Rahmen

Grundkonfiguration

GLM-5 verwendet eine Mixture-of-Experts (MoE)-Architektur mit insgesamt 744B Parametern, aber bei jeder Inferenz werden nur etwa 40B Parameter aktiviert. Dieses "große und spärliche" Design ist bereits zum Branchenschema geworden – DeepSeek-V3/R1, Qwen3 haben ähnliche Wege eingeschlagen.

Wie funktioniert DSA genau?

Die Kernidee von DSA kann mit einer Metapher verstanden werden: Stellen Sie sich vor, Sie suchen in einer Bibliothek nach Informationen. Standardaufmerksamkeit ist wie das Durchblättern jedes Buches in der gesamten Bibliothek, um zu entscheiden, welche nützlich sind. DSA hingegen ist mehr wie ein erfahrener Bibliothekar – er scannt zuerst mit einem Blitz-Index (Lightning Index) schnell die Titel der Regale, identifiziert einige möglicherweise relevante Bereiche und liest dann nur die spezifischen Absätze in diesen Bereichen gründlich.

Trainingsprozess: Vierstufiges "Level-Up"

Der Trainingsprozess von GLM-5 ist das Herzstück dieses Papiers und besteht aus zwei Hauptphasen: Vortraining und Nachtraining.

Vortrainingsphase

  • Datengröße: 27T Tokens, Mischverhältnis der Daten umfasst Webseiten, Code, wissenschaftliche Arbeiten, Bücher usw.
  • Kontextvergrößerung: Durch Zwischen-Training wird der Kontext schrittweise von 4K auf 200K erweitert, unter Verwendung von RoPE-Frequenzanpassungen.
  • Abkühlphase: Am Ende des Vortrainings wird mit qualitativ hochwertigeren Daten eine "Feinabstimmung" vorgenommen.

Nachtrainierungsquartett

Dies ist der charakteristischste Teil von GLM-5. GLM-5 hat vier Runden durchgeführt:

  • Überwachtes Feintuning (SFT) mit hochwertigen Anweisungsdaten.
  • Inferenz-Verstärkungslernen (Reasoning RL), RL-Training bei mathematischen und Code-Inferenzaufgaben.
  • Agenten-Verstärkungslernen (Agentic RL), dies ist die entscheidende Innovation.
  • Allgemeines Verstärkungslernen (General RL), RL in breiteren allgemeinen Aufgaben.

Asynchrones Verstärkungslernen: GPU nicht mehr "faul" lassen

Traditionelles RL-Training ist synchron: Eine Datenmenge sammeln → Belohnung berechnen → Modell aktualisieren → erneut sammeln. Dies ist bei kurzen Aufgabenzeiten kein Problem, aber Agentenaufgaben erfordern oft Dutzende von Interaktionen.

Tiefenanalyse der Experimentergebnisse

Hauptbenchmark-Vergleich

| Benchmark | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Fazit

Das Papier zu GLM-5 enthält eine Fülle von Informationen. Abgesehen von den spezifischen Zahlen vermittelt es die zentrale Botschaft: Das nächste Schlachtfeld großer Modelle liegt im "Arbeiten" und nicht nur im "Fragen beantworten".

Auf der Wettbewerbsseite beweist GLM-5 die Wettbewerbsfähigkeit des chinesischen AI-Teams in der Spitzenforschung großer Modelle.

Papierinformationen

Published in Technology

You Might Also Like