GLM-5: когда большие модели учатся "писать код сами", переход от Vibe Coding к Agentic Engineering
GLM-5: когда большие модели учатся "писать код сами", переход от Vibe Coding к Agentic Engineering
❝
🎯 Одно предложение в резюме: Zhizhu AI совместно с Университетом Цинхуа представил модель GLM-5 с 744B параметрами, которая использует DeepSeek Sparse Attention (DSA) для сокращения вычислительных затрат на внимание, полностью асинхронное обучение с подкреплением (Async RL) для повышения эффективности обучения длинных задач и многоступенчатый процесс постобучения, позволяя большой модели эволюционировать от "атмосферного кодирования" (Vibe Coding) к "инженеру-агенту" (Agentic Engineering), способному самостоятельно выполнять реальные инженерные проекты.
Почему нужна эта статья?
Андрей Карпаты в начале 2025 года предложил интересную концепцию — Vibe Coding, что означает, что вам нужно просто описать требования на естественном языке и "по ощущениям" заставить ИИ писать код. Это действительно является основной практикой программирования на ИИ в настоящее время: вы говорите одно предложение, модель помогает вам сгенерировать кусок кода, а насколько это хорошо, зависит от удачи.
Но проблема в том, что реальная разработка программного обеспечения далеко не так проста, как "написать код". Настоящий инженер должен понимать архитектуру проекта, отлаживать ошибки, управлять зависимостями, обрабатывать межмодульное взаимодействие — все это не может быть решено простым "одним запросом на код". Цель статьи GLM-5 — сделать так, чтобы модель превратилась из "помощника по написанию кода" в "инженера, способного самостоятельно справиться с целым проектом".
Это не маленькая цель. Чтобы ее достичь, команда Zhizhu провела множество инноваций в архитектуре модели, процессе обучения и алгоритмах обучения с подкреплением. Эта интерпретация поможет вам разобраться в этих технических деталях.
Основные вклады: три основных подхода
Перед тем как углубиться в детали, давайте проясним три основных вклада GLM-5:
| Вклад | Решаемая проблема | Основная идея | |---|---|---| | DSA разреженное внимание | Взрыв вычислительных затрат для 128K длинного контекста | Динамический выбор важных токенов, пропуск несущественных, экономия 1.5-2 раза вычислительных ресурсов | | Асинхронная структура обучения с подкреплением | Большое количество свободного GPU в обучении длинных задач RL | Полное разделение генерации и обучения, параллельная обработка в конвейере | | Многоступенчатый процесс постобучения | Трудности в одновременном учете различных возможностей, таких как вывод, кодирование и агент | SFT → вывод RL → агент RL → общий RL, поэтапное наращивание возможностей |
Архитектура модели: "уменьшение" на основе MoE
Основная конфигурация
GLM-5 использует архитектуру Mixture-of-Experts (MoE), с общим количеством параметров 744B, но при каждом выводе активируется только около 40B параметров. Этот "большой и разреженный" дизайн уже стал общепринятым в отрасли — DeepSeek-V3/R1, Qwen3 следуют аналогичному пути.
Как работает DSA?
Основная идея DSA может быть понята через аналогию: представьте, что вы ищете материалы в библиотеке. Стандартное внимание похоже на то, как если бы вы просмотрели каждую книгу в библиотеке, а затем решили, какие из них полезны. А DSA больше напоминает опытного библиотекаря — он сначала с помощью молниеносного индексатора (Lightning Index) быстро сканирует заголовки на полках, определяет несколько потенциально связанных областей, а затем только углубляется в конкретные абзацы в этих областях.
Процесс обучения: четырехступенчатое "повышение уровня"
Процесс обучения GLM-5 является центральной частью этой статьи и делится на две основные стадии: предварительное обучение и последующее обучение.
Этап предварительного обучения
- Объем данных: 27T токенов, соотношение данных включает веб-страницы, код, научные статьи, книги и т.д.
- Расширение контекста: через промежуточное обучение контекст постепенно расширяется с 4K до 200K, с использованием частотной настройки RoPE.
- Этап отжига: в конце предварительного обучения используется более качественные данные для "доработки".
Четыре шага постобучения
Это самая характерная часть GLM-5. GLM-5 провел четыре раунда:
- Супервизорная доработка (SFT) с использованием высококачественных данных инструкций.
- Обучение с подкреплением вывода (Reasoning RL) на задачах математического и кодового вывода.
- Обучение с подкреплением агента (Agentic RL), это ключевая инновация.
- Общее обучение с подкреплением (General RL) на более широком круге общих задач.
Асинхронное обучение с подкреплением: чтобы GPU больше не "бездельничали"
Традиционное обучение с подкреплением является синхронным: сбор партии данных → вычисление награды → обновление модели → повторный сбор. Это не проблема в случае коротких временных задач, но задачи агента часто требуют десятков шагов взаимодействия.
Глубокий анализ результатов эксперимента
Основные сравнительные показатели
| Бенчмарк | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | |---|---|---|---|---|---|---| | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
Заключение
Статья GLM-5 содержит много информации. Оставив в стороне конкретные цифры, ее основное сообщение заключается в том, что следующее поле битвы для больших моделей заключается в "работе" и не только в "ответах на вопросы".
На конкурентном уровне GLM-5 доказал конкурентоспособность китайских ИИ-команд в передовых исследованиях больших моделей.
Информация о статье
- Заголовок: GLM-5: от Vibe Coding к Agentic Engineering
- Организации: Zhizhu AI и Университет Цинхуа
- Ссылка: https://arxiv.org/abs/2602.15763

