GLM-5: когда большие модели учатся "писать код сами", переход от Vibe Coding к Agentic Engineering

2/26/2026
4 min read

GLM-5: когда большие модели учатся "писать код сами", переход от Vibe Coding к Agentic Engineering

🎯 Одно предложение в резюме: Zhizhu AI совместно с Университетом Цинхуа представил модель GLM-5 с 744B параметрами, которая использует DeepSeek Sparse Attention (DSA) для сокращения вычислительных затрат на внимание, полностью асинхронное обучение с подкреплением (Async RL) для повышения эффективности обучения длинных задач и многоступенчатый процесс постобучения, позволяя большой модели эволюционировать от "атмосферного кодирования" (Vibe Coding) к "инженеру-агенту" (Agentic Engineering), способному самостоятельно выполнять реальные инженерные проекты.

Почему нужна эта статья?

Андрей Карпаты в начале 2025 года предложил интересную концепцию — Vibe Coding, что означает, что вам нужно просто описать требования на естественном языке и "по ощущениям" заставить ИИ писать код. Это действительно является основной практикой программирования на ИИ в настоящее время: вы говорите одно предложение, модель помогает вам сгенерировать кусок кода, а насколько это хорошо, зависит от удачи.

Но проблема в том, что реальная разработка программного обеспечения далеко не так проста, как "написать код". Настоящий инженер должен понимать архитектуру проекта, отлаживать ошибки, управлять зависимостями, обрабатывать межмодульное взаимодействие — все это не может быть решено простым "одним запросом на код". Цель статьи GLM-5 — сделать так, чтобы модель превратилась из "помощника по написанию кода" в "инженера, способного самостоятельно справиться с целым проектом".

Это не маленькая цель. Чтобы ее достичь, команда Zhizhu провела множество инноваций в архитектуре модели, процессе обучения и алгоритмах обучения с подкреплением. Эта интерпретация поможет вам разобраться в этих технических деталях.

Основные вклады: три основных подхода

Перед тем как углубиться в детали, давайте проясним три основных вклада GLM-5:

| Вклад | Решаемая проблема | Основная идея | |---|---|---| | DSA разреженное внимание | Взрыв вычислительных затрат для 128K длинного контекста | Динамический выбор важных токенов, пропуск несущественных, экономия 1.5-2 раза вычислительных ресурсов | | Асинхронная структура обучения с подкреплением | Большое количество свободного GPU в обучении длинных задач RL | Полное разделение генерации и обучения, параллельная обработка в конвейере | | Многоступенчатый процесс постобучения | Трудности в одновременном учете различных возможностей, таких как вывод, кодирование и агент | SFT → вывод RL → агент RL → общий RL, поэтапное наращивание возможностей |

Архитектура модели: "уменьшение" на основе MoE

Основная конфигурация

GLM-5 использует архитектуру Mixture-of-Experts (MoE), с общим количеством параметров 744B, но при каждом выводе активируется только около 40B параметров. Этот "большой и разреженный" дизайн уже стал общепринятым в отрасли — DeepSeek-V3/R1, Qwen3 следуют аналогичному пути.

Как работает DSA?

Основная идея DSA может быть понята через аналогию: представьте, что вы ищете материалы в библиотеке. Стандартное внимание похоже на то, как если бы вы просмотрели каждую книгу в библиотеке, а затем решили, какие из них полезны. А DSA больше напоминает опытного библиотекаря — он сначала с помощью молниеносного индексатора (Lightning Index) быстро сканирует заголовки на полках, определяет несколько потенциально связанных областей, а затем только углубляется в конкретные абзацы в этих областях.

Процесс обучения: четырехступенчатое "повышение уровня"

Процесс обучения GLM-5 является центральной частью этой статьи и делится на две основные стадии: предварительное обучение и последующее обучение.

Этап предварительного обучения

  • Объем данных: 27T токенов, соотношение данных включает веб-страницы, код, научные статьи, книги и т.д.
  • Расширение контекста: через промежуточное обучение контекст постепенно расширяется с 4K до 200K, с использованием частотной настройки RoPE.
  • Этап отжига: в конце предварительного обучения используется более качественные данные для "доработки".

Четыре шага постобучения

Это самая характерная часть GLM-5. GLM-5 провел четыре раунда:

  • Супервизорная доработка (SFT) с использованием высококачественных данных инструкций.
  • Обучение с подкреплением вывода (Reasoning RL) на задачах математического и кодового вывода.
  • Обучение с подкреплением агента (Agentic RL), это ключевая инновация.
  • Общее обучение с подкреплением (General RL) на более широком круге общих задач.

Асинхронное обучение с подкреплением: чтобы GPU больше не "бездельничали"

Традиционное обучение с подкреплением является синхронным: сбор партии данных → вычисление награды → обновление модели → повторный сбор. Это не проблема в случае коротких временных задач, но задачи агента часто требуют десятков шагов взаимодействия.

Глубокий анализ результатов эксперимента

Основные сравнительные показатели

| Бенчмарк | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | |---|---|---|---|---|---|---| | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Заключение

Статья GLM-5 содержит много информации. Оставив в стороне конкретные цифры, ее основное сообщение заключается в том, что следующее поле битвы для больших моделей заключается в "работе" и не только в "ответах на вопросы".

На конкурентном уровне GLM-5 доказал конкурентоспособность китайских ИИ-команд в передовых исследованиях больших моделей.

Информация о статье

  • Заголовок: GLM-5: от Vibe Coding к Agentic Engineering
  • Организации: Zhizhu AI и Университет Цинхуа
  • Ссылка: https://arxiv.org/abs/2602.15763
Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修改指南:如何获得闪光传说级宠物

Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровеньTechnology

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень Мне всегда нравилась основная идея Obsidian: п...

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого годаTechnology

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прош...

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собойHealth

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой Новый...

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесьHealth

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь Март уже почти прошел, как у вас...

📝
Technology

AI Browser 24小时稳定运行指南

AI Browser 24小时稳定运行指南 Этот учебник описывает, как создать стабильную, долгосрочную среду для AI браузера. Подходит для A...