GLM-5: Gdy duży model uczy się "sam pisać kod", przejście od Vibe Coding do Agentic Engineering

❝

🎯 Podsumowanie w jednym zdaniu: Zespół Zhipu AI we współpracy z Uniwersytetem Tsinghua wprowadził model GLM-5 z 744 miliardami parametrów, wykorzystując DeepSeek Sparse Attention (DSA) do kompresji obliczeń uwagi, całkowicie asynchroniczne uczenie się przez wzmacnianie (Async RL) do poprawy efektywności treningu długich zadań oraz wieloetapowy proces po treningu, umożliwiając dużemu modelowi ewolucję od "kodowania atmosferycznego" (Vibe Coding) do "inżyniera agenta" (Agentic Engineering), który potrafi samodzielnie realizować rzeczywiste projekty inżynieryjne.

Dlaczego potrzebujemy tego artykułu?

Andrej Karpathy na początku 2025 roku zaproponował interesującą koncepcję - Vibe Coding, co oznacza, że wystarczy opisać wymagania w języku naturalnym i "na wyczucie" pozwolić AI pisać kod. To rzeczywiście jest obecne doświadczenie w programowaniu AI: mówisz jedno zdanie, model generuje fragment kodu, a jego jakość zależy od szczęścia.

Ale pojawia się problem: prawdziwe inżynieria oprogramowania to znacznie więcej niż "pisanie kodu". Prawdziwy inżynier musi rozumieć architekturę projektu, debugować błędy, zarządzać zależnościami, radzić sobie z współpracą między modułami - to wszystko nie da się załatwić "jednym promptem, który generuje fragment kodu". Celem artykułu GLM-5 jest przekształcenie modelu z "asystenta pisania kodu" w "inżyniera, który potrafi samodzielnie zrealizować cały projekt".

To nie jest mały cel. Aby go osiągnąć, zespół Zhipu wprowadził wiele innowacji w architekturze modelu, procesie treningowym i algorytmach uczenia się przez wzmacnianie. Ten artykuł pomoże Ci zrozumieć te techniczne szczegóły.

Kluczowe wkłady: trzy filary

Zanim zagłębimy się w szczegóły, warto wyjaśnić trzy kluczowe wkłady GLM-5:

WkładRozwiązany problemKluczowa myślDSA - rzadkie uwagi128K długie konteksty generują ogromne obciążenie obliczeniowe, dynamicznie wybierając ważne tokeny, pomijając nieistotne, oszczędzając 1.5-2 razy moc obliczeniowąAsynchroniczna struktura uczenia się przez wzmacnianieW długich zadaniach RL GPU często pozostaje nieaktywne, generowanie i trening są całkowicie odseparowane, co pozwala na równoległe przetwarzanieWieloetapowy proces po treninguTrudności w równoczesnym uwzględnieniu różnych umiejętności, takich jak wnioskowanie, kodowanie, agenci SFT → wnioskowanie RL → agenci RL → ogólny RL, stopniowe dodawanie umiejętności

Architektura modelu: "odejmowanie" na bazie MoE

Podstawowa konfiguracja

GLM-5 wykorzystuje architekturę Mixture-of-Experts (MoE), z całkowitą liczbą parametrów wynoszącą 744 miliardy, ale podczas każdego wnioskowania aktywuje tylko około 40 miliardów parametrów. Taki projekt "duży i rzadki" stał się powszechnym konsensusem w branży - DeepSeek-V3/R1, Qwen3 podążyły podobną drogą.

Jak działa DSA?

Kluczowa idea DSA może być zrozumiana za pomocą metafory: wyobraź sobie, że szukasz materiałów w bibliotece. Standardowa uwaga przypomina przeszukiwanie każdej książki w całej bibliotece, a następnie decydowanie, które są przydatne. Natomiast DSA przypomina doświadczonego bibliotekarza - najpierw używa indeksu błyskawicznego (Lightning Index) do szybkiego przeszukiwania tytułów na półkach, identyfikując kilka potencjalnie istotnych obszarów, a następnie dokładnie analizuje konkretne fragmenty w tych obszarach.

Proces treningowy: czterostopniowe "levelowanie"

Proces treningowy GLM-5 to kluczowy element tego artykułu, podzielony na dwie główne fazy: pre-trening i post-trening.

Faza pre-treningu

Skala danych: 27T tokenów, mieszanka danych obejmująca strony internetowe, kod, prace naukowe, książki itp.
Rozszerzenie kontekstu: poprzez trening pośredni kontekst stopniowo rozszerza się z 4K do 200K, wykorzystując dostosowanie częstotliwości RoPE.
Faza wygrzewania: na końcu pre-treningu używa się danych o wyższej jakości do "dopracowania".

Cztery kroki po treningu

To najbardziej charakterystyczna część GLM-5. GLM-5 przeszedł przez cztery etapy:

Nadzorowane dostosowanie (SFT) z użyciem wysokiej jakości danych instruktażowych.
Wnioskowanie przez uczenie się przez wzmacnianie (Reasoning RL) w zadaniach dotyczących matematyki i wnioskowania kodu.
Uczenie się przez wzmacnianie agenta (Agentic RL), co jest kluczową innowacją.
Ogólne uczenie się przez wzmacnianie (General RL), w szerszym zakresie ogólnych zadań.

Asynchroniczne uczenie się przez wzmacnianie: aby GPU nie "marnowało czasu"

Tradycyjne treningi RL są synchronizowane: zbieranie partii danych → obliczanie nagród → aktualizacja modelu → ponowne zbieranie. To działa dobrze w przypadku krótkich zadań, ale zadania agenta często wymagają dziesiątek interakcji.

Głębokie zrozumienie wyników eksperymentalnych

Główne porównania benchmarkowe

BenchmarkGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

Podsumowanie

Artykuł GLM-5 zawiera wiele informacji. Oprócz konkretnych liczb, jego kluczowa informacja to: następnym polem bitwy dla dużych modeli jest "praca" a nie tylko "odpowiadanie na pytania".

Na poziomie konkurencji, GLM-5 udowodnił konkurencyjność chińskich zespołów AI w badaniach nad dużymi modelami.

Informacje o artykule

Tytuł: GLM-5: od Vibe Coding do Agentic Engineering
Instytucja: Zhipu AI & Uniwersytet Tsinghua
Link: https://arxiv.org/abs/2602.15763

GLM-5: Gdy duży model uczy się "sam pisać kod", przejście od Vibe Coding do Agentic Engineering

GLM-5: Gdy duży model uczy się "sam pisać kod", przejście od Vibe Coding do Agentic Engineering

Dlaczego potrzebujemy tego artykułu?

Kluczowe wkłady: trzy filary

Architektura modelu: "odejmowanie" na bazie MoE

Podstawowa konfiguracja

Jak działa DSA?

Proces treningowy: czterostopniowe "levelowanie"

Faza pre-treningu

Cztery kroki po treningu

Asynchroniczne uczenie się przez wzmacnianie: aby GPU nie "marnowało czasu"

Głębokie zrozumienie wyników eksperymentalnych

Główne porównania benchmarkowe

Podsumowanie

Informacje o artykule

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian wprowadził Defuddle, podnosząc Obsidian Web Clipper na nowy poziom

OpenAI nagle ogłasza "trzy w jednym": połączenie przeglądarki + programowania + ChatGPT, wewnętrznie przyznaje, że w ciągu ostatniego roku popełniło błąd

2026, nie zmuszaj się do 'dyscypliny'! Zrób te 8 małych rzeczy, a zdrowie przyjdzie naturalnie

Te mamy, które ciężko pracują nad odchudzaniem, ale nie mogą schudnąć, na pewno mają problem tutaj

AI Browser 24小时稳定运行指南