GLM-5: Кога големите модели учат да "пишат код сами", преминувањето од Vibe Coding до Agentic Engineering

❝

🎯 Едно реченица резиме: Zhizhu AI во соработка со Универзитетот Tsinghua лансираше GLM-5 модел со 744B параметри, преку DeepSeek Sparse Attention (DSA) за компресија на обемот на изчислување на вниманието, целосно асинхроно учење со засилување (Async RL) за решавање на ефикасноста на обуката за долги задачи, и повеќестепен процес на пост-тренинг, што му овозможува на големиот модел да еволуира од "Vibe Coding" до "Agentic Engineering" кој може самостојно да заврши реални инженерски проекти.

Зошто е потребна оваа работа?

Andrej Karpathy во почетокот на 2025 година предложи интересна концепција - Vibe Coding, што значи дека само треба да опишете барања со природен јазик, "по чувство" да му дозволите на AI да напише код. Ова навистина е главното искуство во AI програмирањето: вие кажувате реченица, моделот ви помага да генерирате дел од код, а резултатот зависи од среќата.

Но проблемот е: вистинското софтверско инженерство е многу повеќе од "пишување код". Вистинскиот инженер треба да разбере архитектура на проектот, да дебагира грешки, да управува со зависности, да се справува со соработка помеѓу модули - овие работи не можат да се решат со "една промпт за еден дел код". Целта на GLM-5 е да го направи моделот од "помошник кој ви пишува код" во "инженер кој може самостојно да заврши цел проект".

Ова не е мал цел. За да се постигне, тимот на Zhizhu направи многу иновации во архитектурата на моделот, процесот на обука и алгоритмите за учење со засилување. Оваа анализа ќе ви помогне да ги разберете овие технички детали.

Клучен придонес: Три главни точки

Пред да навлеземе во деталите, прво да ги разјасниме трите клучни придонеси на GLM-5:

| Придонес | Решен проблем | Клучна идеја | | --- | --- | --- | | DSA Редуцирано Внимание | 128K долги контексти | Динамички избор на важни токени, прескокнување на неважни, заштеда од 1.5-2 пати изчислителна моќ | | Асинхронен Рамка за Учење со Засилување | Долги задачи RL обука | Генерација и обука целосно одвоени, паралелно во линија | | Повеќестепен Процес на Пост-Обучување | Тешко е да се комбинираат способности како инферирање, кодирање, интелигентни агенти | SFT → инферирање RL → интелигентен RL → општ RL, постепено надградување на способности |

Архитектура на моделот: Правиме "одземање" на основата на MoE

Основна конфигурација

GLM-5 користи Mixture-of-Experts (MoE) архитектура, со вкупно 744B параметри, но при секоја инферирање активира само околу 40B параметри. Оваа "голема и редуцирана" дизајн стана индустриска согласност - DeepSeek-V3/R1, Qwen3 следат сличен пат.

Како всушност работи DSA?

Клучната идеја на DSA може да се разбере со метафора: замислете дека барате информации во библиотека. Стандардно внимание е како да прелистате секоја книга во библиотеката и потоа да одлучите кои се корисни. А DSA е повеќе како искусен библиотекар - прво користи Брз Индексатор (Lightning Index) за брзо скенирање на насловите на полици, заклучува неколку можеби релевантни области, а потоа само внимателно чита конкретни пасуси во тие области.

Процес на обука: Четиристепен "напредок"

Процесот на обука на GLM-5 е главната атракција на оваа работа, поделена во предобука и постобука.

Фаза на предобука

Обем на податоци: 27T токени, мешавина на податоци вклучува веб-страници, код, академски трудови, книги и др.
Проширување на контекстот: преку средна обука, контекстот се проширува од 4K до 200K, користејќи RoPE фреквенциско прилагодување.
Фаза на отстапување: на крајот на предобуката, користиме податоци од повисок квалитет за "финиширање".

Четиристепен Постобучен Процес

Ова е најкарактеристичниот дел на GLM-5. GLM-5 направи четири рунди:

Надгледувано фино подесување (SFT) со високо квалитетни податоци за инструкции.
Инферирање со учење со засилување (Reasoning RL) на математички и кодирани задачи.
Интелигентно учење со засилување (Agentic RL), што е клучна иновација.
Општо учење со засилување (General RL), на пошироки општи задачи.

Асинхронно учење со засилување: Да не се "одмара" GPU

Традиционалната RL обука е синхронска: собирање на група податоци → пресметување на награда → ажурирање на моделот → повторно собирање. Ова не е проблем во случаи на кратки времиња на задачи, но задачите на интелигентни агенти често бараат десетици интеракции.

Длабока анализа на експерименталните резултати

Главни споредби на референци

| Референца | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |

Заклучок

Работата на GLM-5 е многу информативна. Оставувајќи ги конкретните бројки настрана, основната порака е: следното бојно поле на големите модели е "работа" а не само "одговарање на прашања".

На конкурентно ниво, GLM-5 докажува дека кинеските AI тимови имаат конкурентност во истражувањето на големите модели.

Информации за работата

Наслов: GLM-5: од Vibe Coding до Agentic Engineering
Институција: Zhizhu AI & Универзитет Tsinghua
Линк: https://arxiv.org/abs/2602.15763

GLM-5: Кога големите модели учат да "пишат код сами", преминувањето од Vibe Coding до Agentic Engineering

GLM-5: Кога големите модели учат да "пишат код сами", преминувањето од Vibe Coding до Agentic Engineering

Зошто е потребна оваа работа?

Клучен придонес: Три главни точки

Архитектура на моделот: Правиме "одземање" на основата на MoE

Основна конфигурација

Како всушност работи DSA?

Процес на обука: Четиристепен "напредок"

Фаза на предобука

Четиристепен Постобучен Процес

Асинхронно учење со засилување: Да не се "одмара" GPU

Длабока анализа на експерименталните резултати

Главни споредби на референци

Заклучок

Информации за работата

You Might Also Like

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата година

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука

AI Browser 24 часов стабилно работење водич