GLM-5: коли великі моделі навчаються "писати код самостійно", перехід від Vibe Coding до Agentic Engineering
GLM-5: коли великі моделі навчаються "писати код самостійно", перехід від Vibe Coding до Agentic Engineering
❝
🎯 Одне речення підсумок: Zhizhu AI спільно з Університетом Цінхуа представили модель GLM-5 з 744B параметрами, яка за допомогою DeepSeek Sparse Attention (DSA) зменшує обчислювальні витрати на увагу, використовує повністю асинхронне підкріплене навчання (Async RL) для підвищення ефективності навчання довгих завдань, а також багатоетапний процес після навчання, що дозволяє великій моделі еволюціонувати з "атмосферного кодування" (Vibe Coding) до "інженера-агента" (Agentic Engineering), здатного самостійно виконувати реальні інженерні проекти.
Чому потрібна ця стаття?
Андрей Карпати в початку 2025 року висунув цікаву концепцію — Vibe Coding, що означає, що вам потрібно лише описати вимоги природною мовою, "за відчуттями" дозволити AI писати код. Це дійсно є основним досвідом програмування AI на сьогодні: ви говорите речення, модель допомагає вам згенерувати фрагмент коду, а якість залежить від удачі.
Але виникає питання: реальна програмна інженерія набагато складніша, ніж просто "писати код". Справжній інженер повинен розуміти архітектуру проекту, налагоджувати помилки, управляти залежностями, обробляти міжмодульну співпрацю — все це не може бути вирішено просто "одним запитом на код". Стаття GLM-5 має на меті перетворити модель з "асистента, що допомагає писати код" на "інженера, здатного самостійно завершити весь проект".
Це не маленька мета. Щоб досягти її, команда Zhizhu провела багато інновацій у архітектурі моделі, процесах навчання та алгоритмах підкріпленого навчання. Ця стаття допоможе вам розібратися в цих технічних деталях.
Основний внесок: три основні рішення
Перед тим, як заглибитися в деталі, давайте прояснимо три основні внески GLM-5:
| Внесок | Проблема, яку вирішує | Основна ідея | | --- | --- | --- | | DSA розріджена увага | Витрати обчислень на 128K довгий контекст вибухають | Динамічний вибір важливих токенів, пропуск неактуальних, економія 1.5-2 рази обчислювальної потужності | | Асинхронна структура підкріпленого навчання | У навчанні RL довгих завдань GPU часто простоює | Генерація та навчання повністю декомпозовані, конвеєрна паралельність | | Багатоетапний процес після навчання | Важко поєднати різні можливості, такі як інференція, кодування, агент | SFT → інференція RL → агент RL → загальний RL, поступове нарощування можливостей |
Архітектура моделі: "віднімання" на основі MoE
Базова конфігурація
GLM-5 використовує архітектуру Mixture-of-Experts (MoE), загальна кількість параметрів 744B, але під час кожної інференції активується лише близько 40B параметрів. Такий "великий і розріджений" дизайн вже став загальноприйнятим у галузі — DeepSeek-V3/R1, Qwen3 йдуть подібним шляхом.
Як працює DSA?
Основна ідея DSA може бути зрозуміла за допомогою метафори: уявіть, що ви шукаєте матеріали в бібліотеці. Стандартна увага — це як перегляд кожної книги в бібліотеці, а потім вирішення, які з них корисні. А DSA більше схоже на досвідченого бібліотекаря — він спочатку використовує Lightning Index для швидкого сканування заголовків на полицях, визначає кілька потенційно релевантних областей, а потім лише уважно читає конкретні абзаци в цих областях.
Процес навчання: чотири етапи "покращення"
Процес навчання GLM-5 є основною частиною цієї статті, розділений на попереднє навчання та після навчання.
Етап попереднього навчання
- Обсяг даних: 27T токенів, пропорції даних включають веб-сторінки, код, наукові статті, книги тощо.
- Розширення контексту: через середнє навчання поступово розширюємо контекст з 4K до 200K, використовуючи корекцію частоти RoPE.
- Етап відпалу: в кінці попереднього навчання використовуємо дані вищої якості для "допрацювання".
Чотири етапи після навчання
Це найхарактерніша частина GLM-5. GLM-5 реалізував чотири раунди:
- Супервізоване доопрацювання (SFT) з високоякісними інструкційними даними.
- Підкріплене навчання на основі міркувань (Reasoning RL) на математичних та кодових завданнях.
- Підкріплене навчання агента (Agentic RL), це ключова інновація.
- Загальне підкріплене навчання (General RL) на більш широких загальних завданнях.
Асинхронне підкріплене навчання: щоб GPU більше не "лінивився"
Традиційне навчання RL є синхронним: збір партії даних → обчислення винагороди → оновлення моделі → повторний збір. Це не є проблемою в умовах короткого часу завдання, але завдання агента часто вимагають десятків кроків взаємодії.
Глибокий аналіз експериментальних результатів
Основні порівняння базових показників
| Базовий показник | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
Висновок
Стаття GLM-5 містить багато інформації. Окрім конкретних цифр, її основне повідомлення полягає в тому, що: наступне поле бою для великих моделей полягає в "роботі", а не лише в "відповідях на запитання".
На конкурентному рівні GLM-5 доводить конкурентоспроможність китайських AI-команд у передових дослідженнях великих моделей.
Інформація про статтю
- Заголовок: GLM-5: від Vibe Coding до Agentic Engineering
- Установа: Zhizhu AI & Університет Цінхуа
- Посилання: https://arxiv.org/abs/2602.15763

