GLM-5: Когато големите модели научат да "пишат код сами", преходът от Vibe Coding към Agentic Engineering
GLM-5: Когато големите модели научат да "пишат код сами", преходът от Vibe Coding към Agentic Engineering
❝
🎯 Резюме в едно изречение: Zhizhu AI в сътрудничество с Университета Цинхуа представя модела GLM-5 с 744B параметри, който чрез DeepSeek Sparse Attention (DSA) компресира изчислителната сложност на вниманието, използва напълно асинхронно подсилващо обучение (Async RL) за решаване на ефективността на дългосрочните задачи и многостепенен следтренировъчен процес, позволяващ на големия модел да еволюира от "Vibe Coding" до "Agentic Engineering", способен да завършва реални инженерни проекти самостоятелно.
Защо е необходима тази статия?
Andrej Karpathy в началото на 2025 г. предложи интересна концепция - Vibe Coding, което означава, че просто трябва да опишете изискванията си на естествен език и "по усещане" да накарате AI да пише код. Това наистина е основното преживяване при AI програмирането в момента: казвате едно изречение, моделът ви помага да генерирате код, а качеството зависи изцяло от късмета.
Но проблемът е: истинското софтуерно инженерство е много повече от "писане на код". Истинският инженер трябва да разбира архитектурата на проекта, да отстранява грешки, да управлява зависимости, да обработва сътрудничество между модули - всичко това не може да бъде решено с "едно prompt, генериращо код". Целта на статията GLM-5 е да превърне модела от "асистент, който пише код" в "инженер, способен самостоятелно да завърши целия проект".
Това не е малка цел. За да я постигнат, екипът на Zhizhu е направил много иновации в архитектурата на модела, тренировъчния процес и алгоритмите за подсилващо обучение. Тази интерпретация ще ви помогне да разберете тези технически детайли.
Основен принос: Трите основни стълба
Преди да се задълбочим в детайлите, нека изясним трите основни приноса на GLM-5:
| Принос | Решаваният проблем | Основна идея | | --- | --- | --- | | DSA рядко внимание | Изчислителните разходи на 128K дълъг контекст експлодират | Динамично избиране на важни токени, пропускане на незначителни, спестяване на 1.5-2 пъти изчислителна мощ | | Асинхронна подсилваща обучителна рамка | GPU е в голяма степен неактивен при дълги задачи RL | Генерирането и обучението напълно декомпозирани, паралелно в поточен режим | | Многостепенен следтренировъчен процес | Трудно е да се балансират множество способности като инференция, кодиране, интелигентни агенти | SFT → инференция RL → интелигентен RL → общ RL, постепенно добавяне на способности |
Архитектура на модела: Правим "отсечка" върху скелета на MoE
Основна конфигурация
GLM-5 използва Mixture-of-Experts (MoE) архитектура, с общо 744B параметри, но при всяка инференция активира само около 40B параметри. Този "голям и рядък" дизайн вече е общоприет в индустрията - DeepSeek-V3/R1, Qwen3 следват подобен маршрут.
Как точно работи DSA?
Основната идея на DSA може да се разбере чрез метафора: представете си, че търсите информация в библиотека. Стандартното внимание е като да прегледате всяка книга в цялата библиотека и след това да решите кои са полезни. А DSA е по-скоро като опитен библиотекар - той първо използва Lightning Index за бързо сканиране на заглавията на рафтовете, за да локализира няколко потенциално свързани области, след което само чете внимателно конкретни параграфи в тези области.
Тренировъчен процес: Четиристепенен "повишаване на ниво"
Тренировъчният процес на GLM-5 е основната част на тази статия, разделен на предварително обучение и следобучение.
Предварително обучение
- Мащаб на данните: 27T токена, смесените данни включват уеб страници, код, научни статии, книги и др.
- Разширяване на контекста: Чрез междинно обучение контекстът се разширява от 4K до 200K, използвайки RoPE честотна настройка.
- Фаза на отстъпление: В края на предварителното обучение се използват данни с по-високо качество за "фини настройки".
Четиристепенен следобучителен процес
Това е най-специфичната част на GLM-5. GLM-5 проведе четири кръга:
- Надзорно фино настройване (SFT) с висококачествени данни за инструкции.
- Подсилващо обучение за инференция (Reasoning RL) в математически и кодови задачи.
- Подсилващо обучение за интелигентни агенти (Agentic RL), което е ключова иновация.
- Общо подсилващо обучение (General RL), в по-широк спектър от общи задачи.
Асинхронно подсилващо обучение: Да накараме GPU да не "бездейства"
Традиционното RL обучение е синхронно: събиране на партида данни → изчисляване на награда → обновяване на модела → повторно събиране. Това не е проблем при кратки времеви задачи, но задачите на интелигентни агенти често изискват десетки стъпки взаимодействие.
Дълбочинно тълкуване на експерименталните резултати
Основни сравнения на бенчмаркове
| Бенчмарк | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
Резюме
Статията GLM-5 съдържа много информация. Оставяйки настрана конкретните числа, основното послание е: следващото бойно поле на големите модели е в "работата", а не само в "отговорите на въпроси".
На конкурентно ниво, GLM-5 доказва конкурентоспособността на китайските AI екипи в авангардните изследвания на големи модели.
Информация за статията
- Заглавие: GLM-5: от Vibe Coding до Agentic Engineering
- Институция: Zhizhu AI & Университет Цинхуа
- Линк: https://arxiv.org/abs/2602.15763

