GLM-5: когда большие модели учатся "писать код сами", переход от Vibe Coding к Agentic Engineering

❝

🎯 Одно предложение в резюме: Zhizhu AI совместно с Университетом Цинхуа представил модель GLM-5 с 744B параметрами, которая использует DeepSeek Sparse Attention (DSA) для сокращения вычислительных затрат на внимание, полностью асинхронное обучение с подкреплением (Async RL) для повышения эффективности обучения длинных задач и многоступенчатый процесс постобучения, позволяя большой модели эволюционировать от "атмосферного кодирования" (Vibe Coding) к "инженеру-агенту" (Agentic Engineering), способному самостоятельно выполнять реальные инженерные проекты.

Почему нужна эта статья?

Андрей Карпаты в начале 2025 года предложил интересную концепцию — Vibe Coding, что означает, что вам нужно просто описать требования на естественном языке и "по ощущениям" заставить ИИ писать код. Это действительно является основной практикой программирования на ИИ в настоящее время: вы говорите одно предложение, модель помогает вам сгенерировать кусок кода, а насколько это хорошо, зависит от удачи.

Но проблема в том, что реальная разработка программного обеспечения далеко не так проста, как "написать код". Настоящий инженер должен понимать архитектуру проекта, отлаживать ошибки, управлять зависимостями, обрабатывать межмодульное взаимодействие — все это не может быть решено простым "одним запросом на код". Цель статьи GLM-5 — сделать так, чтобы модель превратилась из "помощника по написанию кода" в "инженера, способного самостоятельно справиться с целым проектом".

Это не маленькая цель. Чтобы ее достичь, команда Zhizhu провела множество инноваций в архитектуре модели, процессе обучения и алгоритмах обучения с подкреплением. Эта интерпретация поможет вам разобраться в этих технических деталях.

Основные вклады: три основных подхода

Перед тем как углубиться в детали, давайте проясним три основных вклада GLM-5:

| Вклад | Решаемая проблема | Основная идея | |---|---|---| | DSA разреженное внимание | Взрыв вычислительных затрат для 128K длинного контекста | Динамический выбор важных токенов, пропуск несущественных, экономия 1.5-2 раза вычислительных ресурсов | | Асинхронная структура обучения с подкреплением | Большое количество свободного GPU в обучении длинных задач RL | Полное разделение генерации и обучения, параллельная обработка в конвейере | | Многоступенчатый процесс постобучения | Трудности в одновременном учете различных возможностей, таких как вывод, кодирование и агент | SFT → вывод RL → агент RL → общий RL, поэтапное наращивание возможностей |

Архитектура модели: "уменьшение" на основе MoE

Основная конфигурация

GLM-5 использует архитектуру Mixture-of-Experts (MoE), с общим количеством параметров 744B, но при каждом выводе активируется только около 40B параметров. Этот "большой и разреженный" дизайн уже стал общепринятым в отрасли — DeepSeek-V3/R1, Qwen3 следуют аналогичному пути.

Как работает DSA?

Основная идея DSA может быть понята через аналогию: представьте, что вы ищете материалы в библиотеке. Стандартное внимание похоже на то, как если бы вы просмотрели каждую книгу в библиотеке, а затем решили, какие из них полезны. А DSA больше напоминает опытного библиотекаря — он сначала с помощью молниеносного индексатора (Lightning Index) быстро сканирует заголовки на полках, определяет несколько потенциально связанных областей, а затем только углубляется в конкретные абзацы в этих областях.

Процесс обучения: четырехступенчатое "повышение уровня"

Процесс обучения GLM-5 является центральной частью этой статьи и делится на две основные стадии: предварительное обучение и последующее обучение.

Этап предварительного обучения

Объем данных: 27T токенов, соотношение данных включает веб-страницы, код, научные статьи, книги и т.д.
Расширение контекста: через промежуточное обучение контекст постепенно расширяется с 4K до 200K, с использованием частотной настройки RoPE.
Этап отжига: в конце предварительного обучения используется более качественные данные для "доработки".

Четыре шага постобучения

Это самая характерная часть GLM-5. GLM-5 провел четыре раунда:

Супервизорная доработка (SFT) с использованием высококачественных данных инструкций.
Обучение с подкреплением вывода (Reasoning RL) на задачах математического и кодового вывода.
Обучение с подкреплением агента (Agentic RL), это ключевая инновация.
Общее обучение с подкреплением (General RL) на более широком круге общих задач.

Асинхронное обучение с подкреплением: чтобы GPU больше не "бездельничали"

Традиционное обучение с подкреплением является синхронным: сбор партии данных → вычисление награды → обновление модели → повторный сбор. Это не проблема в случае коротких временных задач, но задачи агента часто требуют десятков шагов взаимодействия.

Глубокий анализ результатов эксперимента

Основные сравнительные показатели

| Бенчмарк | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | |---|---|---|---|---|---|---| | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Заключение

Статья GLM-5 содержит много информации. Оставив в стороне конкретные цифры, ее основное сообщение заключается в том, что следующее поле битвы для больших моделей заключается в "работе" и не только в "ответах на вопросы".

На конкурентном уровне GLM-5 доказал конкурентоспособность китайских ИИ-команд в передовых исследованиях больших моделей.

Информация о статье

Заголовок: GLM-5: от Vibe Coding к Agentic Engineering
Организации: Zhizhu AI и Университет Цинхуа
Ссылка: https://arxiv.org/abs/2602.15763

GLM-5: когда большие модели учатся "писать код сами", переход от Vibe Coding к Agentic Engineering

GLM-5: когда большие модели учатся "писать код сами", переход от Vibe Coding к Agentic Engineering

Почему нужна эта статья?

Основные вклады: три основных подхода

Архитектура модели: "уменьшение" на основе MoE

Основная конфигурация

Как работает DSA?

Процесс обучения: четырехступенчатое "повышение уровня"

Этап предварительного обучения

Четыре шага постобучения

Асинхронное обучение с подкреплением: чтобы GPU больше не "бездельничали"

Глубокий анализ результатов эксперимента

Основные сравнительные показатели

Заключение

Информация о статье

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

AI Browser 24小时稳定运行指南