GLM-5: Кога големите модели учат да "пишат код сами", преминувањето од Vibe Coding до Agentic Engineering
GLM-5: Кога големите модели учат да "пишат код сами", преминувањето од Vibe Coding до Agentic Engineering
❝
🎯 Едно реченица резиме: Zhizhu AI во соработка со Универзитетот Tsinghua лансираше GLM-5 модел со 744B параметри, преку DeepSeek Sparse Attention (DSA) за компресија на обемот на изчислување на вниманието, целосно асинхроно учење со засилување (Async RL) за решавање на ефикасноста на обуката за долги задачи, и повеќестепен процес на пост-тренинг, што му овозможува на големиот модел да еволуира од "Vibe Coding" до "Agentic Engineering" кој може самостојно да заврши реални инженерски проекти.
Зошто е потребна оваа работа?
Andrej Karpathy во почетокот на 2025 година предложи интересна концепција - Vibe Coding, што значи дека само треба да опишете барања со природен јазик, "по чувство" да му дозволите на AI да напише код. Ова навистина е главното искуство во AI програмирањето: вие кажувате реченица, моделот ви помага да генерирате дел од код, а резултатот зависи од среќата.
Но проблемот е: вистинското софтверско инженерство е многу повеќе од "пишување код". Вистинскиот инженер треба да разбере архитектура на проектот, да дебагира грешки, да управува со зависности, да се справува со соработка помеѓу модули - овие работи не можат да се решат со "една промпт за еден дел код". Целта на GLM-5 е да го направи моделот од "помошник кој ви пишува код" во "инженер кој може самостојно да заврши цел проект".
Ова не е мал цел. За да се постигне, тимот на Zhizhu направи многу иновации во архитектурата на моделот, процесот на обука и алгоритмите за учење со засилување. Оваа анализа ќе ви помогне да ги разберете овие технички детали.
Клучен придонес: Три главни точки
Пред да навлеземе во деталите, прво да ги разјасниме трите клучни придонеси на GLM-5:
| Придонес | Решен проблем | Клучна идеја | | --- | --- | --- | | DSA Редуцирано Внимание | 128K долги контексти | Динамички избор на важни токени, прескокнување на неважни, заштеда од 1.5-2 пати изчислителна моќ | | Асинхронен Рамка за Учење со Засилување | Долги задачи RL обука | Генерација и обука целосно одвоени, паралелно во линија | | Повеќестепен Процес на Пост-Обучување | Тешко е да се комбинираат способности како инферирање, кодирање, интелигентни агенти | SFT → инферирање RL → интелигентен RL → општ RL, постепено надградување на способности |
Архитектура на моделот: Правиме "одземање" на основата на MoE
Основна конфигурација
GLM-5 користи Mixture-of-Experts (MoE) архитектура, со вкупно 744B параметри, но при секоја инферирање активира само околу 40B параметри. Оваа "голема и редуцирана" дизајн стана индустриска согласност - DeepSeek-V3/R1, Qwen3 следат сличен пат.
Како всушност работи DSA?
Клучната идеја на DSA може да се разбере со метафора: замислете дека барате информации во библиотека. Стандардно внимание е како да прелистате секоја книга во библиотеката и потоа да одлучите кои се корисни. А DSA е повеќе како искусен библиотекар - прво користи Брз Индексатор (Lightning Index) за брзо скенирање на насловите на полици, заклучува неколку можеби релевантни области, а потоа само внимателно чита конкретни пасуси во тие области.
Процес на обука: Четиристепен "напредок"
Процесот на обука на GLM-5 е главната атракција на оваа работа, поделена во предобука и постобука.
Фаза на предобука
- Обем на податоци: 27T токени, мешавина на податоци вклучува веб-страници, код, академски трудови, книги и др.
- Проширување на контекстот: преку средна обука, контекстот се проширува од 4K до 200K, користејќи RoPE фреквенциско прилагодување.
- Фаза на отстапување: на крајот на предобуката, користиме податоци од повисок квалитет за "финиширање".
Четиристепен Постобучен Процес
Ова е најкарактеристичниот дел на GLM-5. GLM-5 направи четири рунди:
- Надгледувано фино подесување (SFT) со високо квалитетни податоци за инструкции.
- Инферирање со учење со засилување (Reasoning RL) на математички и кодирани задачи.
- Интелигентно учење со засилување (Agentic RL), што е клучна иновација.
- Општо учење со засилување (General RL), на пошироки општи задачи.
Асинхронно учење со засилување: Да не се "одмара" GPU
Традиционалната RL обука е синхронска: собирање на група податоци → пресметување на награда → ажурирање на моделот → повторно собирање. Ова не е проблем во случаи на кратки времиња на задачи, но задачите на интелигентни агенти често бараат десетици интеракции.
Длабока анализа на експерименталните резултати
Главни споредби на референци
| Референца | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
Заклучок
Работата на GLM-5 е многу информативна. Оставувајќи ги конкретните бројки настрана, основната порака е: следното бојно поле на големите модели е "работа" а не само "одговарање на прашања".
На конкурентно ниво, GLM-5 докажува дека кинеските AI тимови имаат конкурентност во истражувањето на големите модели.
Информации за работата
- Наслов: GLM-5: од Vibe Coding до Agentic Engineering
- Институција: Zhizhu AI & Универзитет Tsinghua
- Линк: https://arxiv.org/abs/2602.15763

