GLM-5: Когато големите модели научат да "пишат код сами", преходът от Vibe Coding към Agentic Engineering

❝

🎯 Резюме в едно изречение: Zhizhu AI в сътрудничество с Университета Цинхуа представя модела GLM-5 с 744B параметри, който чрез DeepSeek Sparse Attention (DSA) компресира изчислителната сложност на вниманието, използва напълно асинхронно подсилващо обучение (Async RL) за решаване на ефективността на дългосрочните задачи и многостепенен следтренировъчен процес, позволяващ на големия модел да еволюира от "Vibe Coding" до "Agentic Engineering", способен да завършва реални инженерни проекти самостоятелно.

Защо е необходима тази статия?

Andrej Karpathy в началото на 2025 г. предложи интересна концепция - Vibe Coding, което означава, че просто трябва да опишете изискванията си на естествен език и "по усещане" да накарате AI да пише код. Това наистина е основното преживяване при AI програмирането в момента: казвате едно изречение, моделът ви помага да генерирате код, а качеството зависи изцяло от късмета.

Но проблемът е: истинското софтуерно инженерство е много повече от "писане на код". Истинският инженер трябва да разбира архитектурата на проекта, да отстранява грешки, да управлява зависимости, да обработва сътрудничество между модули - всичко това не може да бъде решено с "едно prompt, генериращо код". Целта на статията GLM-5 е да превърне модела от "асистент, който пише код" в "инженер, способен самостоятелно да завърши целия проект".

Това не е малка цел. За да я постигнат, екипът на Zhizhu е направил много иновации в архитектурата на модела, тренировъчния процес и алгоритмите за подсилващо обучение. Тази интерпретация ще ви помогне да разберете тези технически детайли.

Основен принос: Трите основни стълба

Преди да се задълбочим в детайлите, нека изясним трите основни приноса на GLM-5:

| Принос | Решаваният проблем | Основна идея | | --- | --- | --- | | DSA рядко внимание | Изчислителните разходи на 128K дълъг контекст експлодират | Динамично избиране на важни токени, пропускане на незначителни, спестяване на 1.5-2 пъти изчислителна мощ | | Асинхронна подсилваща обучителна рамка | GPU е в голяма степен неактивен при дълги задачи RL | Генерирането и обучението напълно декомпозирани, паралелно в поточен режим | | Многостепенен следтренировъчен процес | Трудно е да се балансират множество способности като инференция, кодиране, интелигентни агенти | SFT → инференция RL → интелигентен RL → общ RL, постепенно добавяне на способности |

Архитектура на модела: Правим "отсечка" върху скелета на MoE

Основна конфигурация

GLM-5 използва Mixture-of-Experts (MoE) архитектура, с общо 744B параметри, но при всяка инференция активира само около 40B параметри. Този "голям и рядък" дизайн вече е общоприет в индустрията - DeepSeek-V3/R1, Qwen3 следват подобен маршрут.

Как точно работи DSA?

Основната идея на DSA може да се разбере чрез метафора: представете си, че търсите информация в библиотека. Стандартното внимание е като да прегледате всяка книга в цялата библиотека и след това да решите кои са полезни. А DSA е по-скоро като опитен библиотекар - той първо използва Lightning Index за бързо сканиране на заглавията на рафтовете, за да локализира няколко потенциално свързани области, след което само чете внимателно конкретни параграфи в тези области.

Тренировъчен процес: Четиристепенен "повишаване на ниво"

Тренировъчният процес на GLM-5 е основната част на тази статия, разделен на предварително обучение и следобучение.

Предварително обучение

Мащаб на данните: 27T токена, смесените данни включват уеб страници, код, научни статии, книги и др.
Разширяване на контекста: Чрез междинно обучение контекстът се разширява от 4K до 200K, използвайки RoPE честотна настройка.
Фаза на отстъпление: В края на предварителното обучение се използват данни с по-високо качество за "фини настройки".

Четиристепенен следобучителен процес

Това е най-специфичната част на GLM-5. GLM-5 проведе четири кръга:

Надзорно фино настройване (SFT) с висококачествени данни за инструкции.
Подсилващо обучение за инференция (Reasoning RL) в математически и кодови задачи.
Подсилващо обучение за интелигентни агенти (Agentic RL), което е ключова иновация.
Общо подсилващо обучение (General RL), в по-широк спектър от общи задачи.

Асинхронно подсилващо обучение: Да накараме GPU да не "бездейства"

Традиционното RL обучение е синхронно: събиране на партида данни → изчисляване на награда → обновяване на модела → повторно събиране. Това не е проблем при кратки времеви задачи, но задачите на интелигентни агенти често изискват десетки стъпки взаимодействие.

Дълбочинно тълкуване на експерименталните резултати

Основни сравнения на бенчмаркове

| Бенчмарк | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Резюме

Статията GLM-5 съдържа много информация. Оставяйки настрана конкретните числа, основното послание е: следващото бойно поле на големите модели е в "работата", а не само в "отговорите на въпроси".

На конкурентно ниво, GLM-5 доказва конкурентоспособността на китайските AI екипи в авангардните изследвания на големи модели.

Информация за статията

Заглавие: GLM-5: от Vibe Coding до Agentic Engineering
Институция: Zhizhu AI & Университет Цинхуа
Линк: https://arxiv.org/abs/2602.15763

GLM-5: Когато големите модели научат да "пишат код сами", преходът от Vibe Coding към Agentic Engineering

GLM-5: Когато големите модели научат да "пишат код сами", преходът от Vibe Coding към Agentic Engineering

Защо е необходима тази статия?

Основен принос: Трите основни стълба

Архитектура на модела: Правим "отсечка" върху скелета на MoE

Основна конфигурация

Как точно работи DSA?

Тренировъчен процес: Четиристепенен "повишаване на ниво"

Предварително обучение

Четиристепенен следобучителен процес

Асинхронно подсилващо обучение: Да накараме GPU да не "бездейства"

Дълбочинно тълкуване на експерименталните резултати

Основни сравнения на бенчмаркове

Резюме

Информация за статията

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

AI Browser 24小时稳定运行指南