GLM-5: Gdy duży model uczy się "sam pisać kod", przejście od Vibe Coding do Agentic Engineering
GLM-5: Gdy duży model uczy się "sam pisać kod", przejście od Vibe Coding do Agentic Engineering
❝
🎯 Podsumowanie w jednym zdaniu: Zespół Zhipu AI we współpracy z Uniwersytetem Tsinghua wprowadził model GLM-5 z 744 miliardami parametrów, wykorzystując DeepSeek Sparse Attention (DSA) do kompresji obliczeń uwagi, całkowicie asynchroniczne uczenie się przez wzmacnianie (Async RL) do poprawy efektywności treningu długich zadań oraz wieloetapowy proces po treningu, umożliwiając dużemu modelowi ewolucję od "kodowania atmosferycznego" (Vibe Coding) do "inżyniera agenta" (Agentic Engineering), który potrafi samodzielnie realizować rzeczywiste projekty inżynieryjne.
Dlaczego potrzebujemy tego artykułu?
Andrej Karpathy na początku 2025 roku zaproponował interesującą koncepcję - Vibe Coding, co oznacza, że wystarczy opisać wymagania w języku naturalnym i "na wyczucie" pozwolić AI pisać kod. To rzeczywiście jest obecne doświadczenie w programowaniu AI: mówisz jedno zdanie, model generuje fragment kodu, a jego jakość zależy od szczęścia.
Ale pojawia się problem: prawdziwe inżynieria oprogramowania to znacznie więcej niż "pisanie kodu". Prawdziwy inżynier musi rozumieć architekturę projektu, debugować błędy, zarządzać zależnościami, radzić sobie z współpracą między modułami - to wszystko nie da się załatwić "jednym promptem, który generuje fragment kodu". Celem artykułu GLM-5 jest przekształcenie modelu z "asystenta pisania kodu" w "inżyniera, który potrafi samodzielnie zrealizować cały projekt".
To nie jest mały cel. Aby go osiągnąć, zespół Zhipu wprowadził wiele innowacji w architekturze modelu, procesie treningowym i algorytmach uczenia się przez wzmacnianie. Ten artykuł pomoże Ci zrozumieć te techniczne szczegóły.
Kluczowe wkłady: trzy filary
Zanim zagłębimy się w szczegóły, warto wyjaśnić trzy kluczowe wkłady GLM-5:
WkładRozwiązany problemKluczowa myślDSA - rzadkie uwagi128K długie konteksty generują ogromne obciążenie obliczeniowe, dynamicznie wybierając ważne tokeny, pomijając nieistotne, oszczędzając 1.5-2 razy moc obliczeniowąAsynchroniczna struktura uczenia się przez wzmacnianieW długich zadaniach RL GPU często pozostaje nieaktywne, generowanie i trening są całkowicie odseparowane, co pozwala na równoległe przetwarzanieWieloetapowy proces po treninguTrudności w równoczesnym uwzględnieniu różnych umiejętności, takich jak wnioskowanie, kodowanie, agenci SFT → wnioskowanie RL → agenci RL → ogólny RL, stopniowe dodawanie umiejętności
Architektura modelu: "odejmowanie" na bazie MoE
Podstawowa konfiguracja
GLM-5 wykorzystuje architekturę Mixture-of-Experts (MoE), z całkowitą liczbą parametrów wynoszącą 744 miliardy, ale podczas każdego wnioskowania aktywuje tylko około 40 miliardów parametrów. Taki projekt "duży i rzadki" stał się powszechnym konsensusem w branży - DeepSeek-V3/R1, Qwen3 podążyły podobną drogą.
Jak działa DSA?
Kluczowa idea DSA może być zrozumiana za pomocą metafory: wyobraź sobie, że szukasz materiałów w bibliotece. Standardowa uwaga przypomina przeszukiwanie każdej książki w całej bibliotece, a następnie decydowanie, które są przydatne. Natomiast DSA przypomina doświadczonego bibliotekarza - najpierw używa indeksu błyskawicznego (Lightning Index) do szybkiego przeszukiwania tytułów na półkach, identyfikując kilka potencjalnie istotnych obszarów, a następnie dokładnie analizuje konkretne fragmenty w tych obszarach.
Proces treningowy: czterostopniowe "levelowanie"
Proces treningowy GLM-5 to kluczowy element tego artykułu, podzielony na dwie główne fazy: pre-trening i post-trening.
Faza pre-treningu
- Skala danych: 27T tokenów, mieszanka danych obejmująca strony internetowe, kod, prace naukowe, książki itp.
- Rozszerzenie kontekstu: poprzez trening pośredni kontekst stopniowo rozszerza się z 4K do 200K, wykorzystując dostosowanie częstotliwości RoPE.
- Faza wygrzewania: na końcu pre-treningu używa się danych o wyższej jakości do "dopracowania".
Cztery kroki po treningu
To najbardziej charakterystyczna część GLM-5. GLM-5 przeszedł przez cztery etapy:
- Nadzorowane dostosowanie (SFT) z użyciem wysokiej jakości danych instruktażowych.
- Wnioskowanie przez uczenie się przez wzmacnianie (Reasoning RL) w zadaniach dotyczących matematyki i wnioskowania kodu.
- Uczenie się przez wzmacnianie agenta (Agentic RL), co jest kluczową innowacją.
- Ogólne uczenie się przez wzmacnianie (General RL), w szerszym zakresie ogólnych zadań.
Asynchroniczne uczenie się przez wzmacnianie: aby GPU nie "marnowało czasu"
Tradycyjne treningi RL są synchronizowane: zbieranie partii danych → obliczanie nagród → aktualizacja modelu → ponowne zbieranie. To działa dobrze w przypadku krótkich zadań, ale zadania agenta często wymagają dziesiątek interakcji.
Głębokie zrozumienie wyników eksperymentalnych
Główne porównania benchmarkowe
BenchmarkGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
Podsumowanie
Artykuł GLM-5 zawiera wiele informacji. Oprócz konkretnych liczb, jego kluczowa informacja to: następnym polem bitwy dla dużych modeli jest "praca" a nie tylko "odpowiadanie na pytania".
Na poziomie konkurencji, GLM-5 udowodnił konkurencyjność chińskich zespołów AI w badaniach nad dużymi modelami.
Informacje o artykule
- Tytuł: GLM-5: od Vibe Coding do Agentic Engineering
- Instytucja: Zhipu AI & Uniwersytet Tsinghua
- Link: https://arxiv.org/abs/2602.15763

