GLM-5: коли великі моделі навчаються "писати код самостійно", перехід від Vibe Coding до Agentic Engineering

❝

🎯 Одне речення підсумок: Zhizhu AI спільно з Університетом Цінхуа представили модель GLM-5 з 744B параметрами, яка за допомогою DeepSeek Sparse Attention (DSA) зменшує обчислювальні витрати на увагу, використовує повністю асинхронне підкріплене навчання (Async RL) для підвищення ефективності навчання довгих завдань, а також багатоетапний процес після навчання, що дозволяє великій моделі еволюціонувати з "атмосферного кодування" (Vibe Coding) до "інженера-агента" (Agentic Engineering), здатного самостійно виконувати реальні інженерні проекти.

Чому потрібна ця стаття?

Андрей Карпати в початку 2025 року висунув цікаву концепцію — Vibe Coding, що означає, що вам потрібно лише описати вимоги природною мовою, "за відчуттями" дозволити AI писати код. Це дійсно є основним досвідом програмування AI на сьогодні: ви говорите речення, модель допомагає вам згенерувати фрагмент коду, а якість залежить від удачі.

Але виникає питання: реальна програмна інженерія набагато складніша, ніж просто "писати код". Справжній інженер повинен розуміти архітектуру проекту, налагоджувати помилки, управляти залежностями, обробляти міжмодульну співпрацю — все це не може бути вирішено просто "одним запитом на код". Стаття GLM-5 має на меті перетворити модель з "асистента, що допомагає писати код" на "інженера, здатного самостійно завершити весь проект".

Це не маленька мета. Щоб досягти її, команда Zhizhu провела багато інновацій у архітектурі моделі, процесах навчання та алгоритмах підкріпленого навчання. Ця стаття допоможе вам розібратися в цих технічних деталях.

Основний внесок: три основні рішення

Перед тим, як заглибитися в деталі, давайте прояснимо три основні внески GLM-5:

| Внесок | Проблема, яку вирішує | Основна ідея | | --- | --- | --- | | DSA розріджена увага | Витрати обчислень на 128K довгий контекст вибухають | Динамічний вибір важливих токенів, пропуск неактуальних, економія 1.5-2 рази обчислювальної потужності | | Асинхронна структура підкріпленого навчання | У навчанні RL довгих завдань GPU часто простоює | Генерація та навчання повністю декомпозовані, конвеєрна паралельність | | Багатоетапний процес після навчання | Важко поєднати різні можливості, такі як інференція, кодування, агент | SFT → інференція RL → агент RL → загальний RL, поступове нарощування можливостей |

Архітектура моделі: "віднімання" на основі MoE

Базова конфігурація

GLM-5 використовує архітектуру Mixture-of-Experts (MoE), загальна кількість параметрів 744B, але під час кожної інференції активується лише близько 40B параметрів. Такий "великий і розріджений" дизайн вже став загальноприйнятим у галузі — DeepSeek-V3/R1, Qwen3 йдуть подібним шляхом.

Як працює DSA?

Основна ідея DSA може бути зрозуміла за допомогою метафори: уявіть, що ви шукаєте матеріали в бібліотеці. Стандартна увага — це як перегляд кожної книги в бібліотеці, а потім вирішення, які з них корисні. А DSA більше схоже на досвідченого бібліотекаря — він спочатку використовує Lightning Index для швидкого сканування заголовків на полицях, визначає кілька потенційно релевантних областей, а потім лише уважно читає конкретні абзаци в цих областях.

Процес навчання: чотири етапи "покращення"

Процес навчання GLM-5 є основною частиною цієї статті, розділений на попереднє навчання та після навчання.

Етап попереднього навчання

Обсяг даних: 27T токенів, пропорції даних включають веб-сторінки, код, наукові статті, книги тощо.
Розширення контексту: через середнє навчання поступово розширюємо контекст з 4K до 200K, використовуючи корекцію частоти RoPE.
Етап відпалу: в кінці попереднього навчання використовуємо дані вищої якості для "допрацювання".

Чотири етапи після навчання

Це найхарактерніша частина GLM-5. GLM-5 реалізував чотири раунди:

Супервізоване доопрацювання (SFT) з високоякісними інструкційними даними.
Підкріплене навчання на основі міркувань (Reasoning RL) на математичних та кодових завданнях.
Підкріплене навчання агента (Agentic RL), це ключова інновація.
Загальне підкріплене навчання (General RL) на більш широких загальних завданнях.

Асинхронне підкріплене навчання: щоб GPU більше не "лінивився"

Традиційне навчання RL є синхронним: збір партії даних → обчислення винагороди → оновлення моделі → повторний збір. Це не є проблемою в умовах короткого часу завдання, але завдання агента часто вимагають десятків кроків взаємодії.

Глибокий аналіз експериментальних результатів

Основні порівняння базових показників

| Базовий показник | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Висновок

Стаття GLM-5 містить багато інформації. Окрім конкретних цифр, її основне повідомлення полягає в тому, що: наступне поле бою для великих моделей полягає в "роботі", а не лише в "відповідях на запитання".

На конкурентному рівні GLM-5 доводить конкурентоспроможність китайських AI-команд у передових дослідженнях великих моделей.

Інформація про статтю

Заголовок: GLM-5: від Vibe Coding до Agentic Engineering
Установа: Zhizhu AI & Університет Цінхуа
Посилання: https://arxiv.org/abs/2602.15763

GLM-5: коли великі моделі навчаються "писати код самостійно", перехід від Vibe Coding до Agentic Engineering

GLM-5: коли великі моделі навчаються "писати код самостійно", перехід від Vibe Coding до Agentic Engineering

Чому потрібна ця стаття?

Основний внесок: три основні рішення

Архітектура моделі: "віднімання" на основі MoE

Базова конфігурація

Як працює DSA?

Процес навчання: чотири етапи "покращення"

Етап попереднього навчання

Чотири етапи після навчання

Асинхронне підкріплене навчання: щоб GPU більше не "лінивився"

Глибокий аналіз експериментальних результатів

Основні порівняння базових показників

Висновок

Інформація про статтю

You Might Also Like

Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого року

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди

AI Browser 24 години стабільної роботи: посібник