GLM-5:Том загварууд "өөрсдөө код бичих" сурах үед, Vibe Coding-оос Agentic Engineering рүү шилжих
GLM-5:Том загварууд "өөрсдөө код бичих" сурах үед, Vibe Coding-оос Agentic Engineering рүү шилжих
❝
🎯 Нэг өгүүлбэрийн дүгнэлт:ZhiPu AI нь Tsinghua их сургуультай хамтран 744B параметртэй GLM-5 загварыг гаргасан бөгөөд DeepSeek Sparse Attention(DSA)-г ашиглан анхаарал хандуулах тооцооллын хэмжээг багасгаж, бүхэлд нь асинхрон бэхжүүлэлтийн сургалтыг(Async RL)урт хугацааны даалгаврын сургалтын үр ашгийг шийдвэрлэж, олон үе шаттай сургалтын процессоор том загварыг "Vibe Coding"-оос "Agentic Engineering"-д шилжүүлэх боломжийг олгож байна.
Яагаад энэ судалгааг хийх хэрэгтэй вэ?
Andrej Karpathy 2025 оны эхээр сонирхолтой ойлголтыг дэвшүүлсэн — Vibe Coding гэдэг нь та зөвхөн байгалийн хэлээр шаардлагыг тодорхойлж, "мэдрэмжээр" AI-ийг код бичихэд хүргэх хэрэгтэй гэсэн үг. Энэ нь одоогийн AI программчлалын гол туршлага юм: та нэг өгүүлбэр хэлэхэд загвар танд кодын хэсэг гаргаж өгдөг, үр дүн нь азаар хамаарна.
Гэхдээ асуудал гарч ирдэг: жижиг программ хангамжийн инженерчлэл "код бичих"-ээс хамаагүй илүү төвөгтэй. Жинхэнэ инженер нь төсөлд архитектурыг ойлгож, алдааг засаж, хамаарал удирдаж, модулиудын хамтын ажиллагааг зохицуулах хэрэгтэй — эдгээр нь "нэг prompt-оос нэг кодын хэсэг"-ийг шийдэх боломжгүй. GLM-5 энэ судалгаагаар загварыг "танд код бичих туслагч"-аас "бүх төслийг бие даан шийдэх инженер" болгож хөгжүүлэхийг зорьж байна.
Энэ бол жижиг зорилт биш. Үүнийг хүрэхийн тулд ZhiPu баг загварын архитектур, сургалтын процесс, бэхжүүлэлтийн алгоритм дээр их хэмжээний шинэчлэл хийсэн. Энэ тайлбар нь эдгээр технологийн нарийн ширийн зүйлийг задлахад туслах болно.
Гол хувь нэмэр: Гурван гол санаа
Дэлгэрэнгүй мэдээлэлд орохоос өмнө GLM-5-ийн гурван гол хувь нэмрийг тодорхойлъё:
| Хувь нэмэр | Шийдсэн асуудал | Гол санаа | | --- | --- | --- | | DSA хомс анхаарал | 128K урт контекстын тооцооллын зардал ихсэх | Чухал токенуудыг динамик сонгож, холбоогүйг алгасах, 1.5-2 дахин тооцооллын хүчин чадлыг хэмнэнэ | | Асинхрон бэхжүүлэлтийн хүрээ | Урт даалгаврын RL сургалтад GPU их хэмжээний чөлөөт байдаг | Үүсгэх болон сургалтыг бүрэн салгах, шугаман параллел | | Олон үе шаттай сургалтын процесс | Ухаалаг, код бичих, агент гэх мэт олон чадварыг зэрэгцүүлэхэд хэцүү | SFT→推理RL→智能体RL→通用RL, чадварыг аажмаар нэмэгдүүлэх |
Загварын архитектур: MoE-ийн суурь дээр "багасгах"
Суурь тохиргоо
GLM-5 нь Mixture-of-Experts(MoE) архитектурыг ашигладаг, нийт параметр 744B, гэхдээ нэг удаагийн推理-д ойролцоогоор 40B параметр идэвхждэг. Энэ "том, хомс" дизайныг салбарын нийтлэг ойлголт болгосон — DeepSeek-V3/R1, Qwen3 ижил замаар явж байна.
DSA яг хэрхэн ажилладаг вэ?
DSA-ийн гол санааг нэг жишээгээр ойлгож болно: та номын санд материал хайж байгаа гэж төсөөлөөд үзээрэй. Стандарт анхаарал нь бүх номын сангийн бүх номыг нэг бүрчлэн эргүүлж, аль нь хэрэгтэйг шийддэг. Харин DSA нь туршлагатай номын сангийн менежер шиг — энэ нь Гэрэлт индексатор(Lightning Index)-ийг ашиглан номын тавиурын гарчгийг хурдан сканнердаж, зарим боломжит холбоотой бүсийг тодорхойлж, дараа нь зөвхөн эдгээр бүсийн тодорхой хэсгүүдийг гүнзгий уншдаг.
Сургалтын процесс: Дөрвөн үе шаттай "даалгавар дэвшил"
GLM-5-ийн сургалтын процесс нь энэ судалгааны гол хэсэг бөгөөд урьдчилсан сургалт болон дараагийн сургалт гэсэн хоёр том үе шатанд хуваагддаг.
Урдчилсан сургалтын үе шат
- Мэдээллийн хэмжээ:27T token, мэдээллийн хольцын хувь хэмжээ нь вэб хуудсууд, код, академик судалгаа, ном зэрэг багтана
- Контекстын өргөтгөл:Дунд хугацааны сургалтаар контекстийг 4K-аас аажмаар 200K-д өргөжүүлж, RoPE давтамжийн тохируулгыг ашиглана
- Буцаах үе шат:Урдчилсан сургалтын төгсгөлд илүү өндөр чанартай мэдээллээр "засварлах"
Дараагийн сургалтын дөрвөн үе шат
Энэ нь GLM-5-ийн хамгийн онцлог хэсэг юм. GLM-5 дөрвөн удаа хийсэн:
- Хяналтын нарийвчилсан (SFT) өндөр чанартай зааварчилгааны мэдээллээр нарийвчилсан.
- 推理 бэхжүүлэлт (Reasoning RL) математик болон кодын推理 даалгавруудад RL сургалт хийсэн.
- Агентын бэхжүүлэлт (Agentic RL), энэ нь гол шинэчлэл.
- Ерөнхий бэхжүүлэлт (General RL), өргөн цар хүрээний ерөнхий даалгавруудад RL сургалт хийсэн.
Асинхрон бэхжүүлэлт: GPU-г "амарч" байлгахгүй
Уламжлалт RL сургалт нь синхрон байдаг: өгөгдлийн бүлэг цуглуулах → шагнал тооцоолох → загварыг шинэчлэх → дахин цуглуулах. Энэ нь даалгаврын хугацаа богино байх үед асуудалгүй, гэхдээ агентын даалгавар ихэвчлэн хэдэн арван алхамын харилцан үйлчлэлийг шаарддаг.
Туршилтын үр дүнг гүнзгий тайлбарлах
Гол стандартын харьцуулалт
| Стандарт | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 | |
Дүгнэлт
GLM-5 энэ судалгааны мэдээлэл ихтэй. Тодорхой тоон мэдээллийг хойш тавьж, энэ нь дамжуулж буй гол мэдээлэл нь: том загваруудын дараагийн тулаан "ажиллах"-д байгаа бөгөөд зөвхөн "асуултанд хариулах" биш.
Өрсөлдөөнд, GLM-5 нь Хятад улсын AI багуудын том загварын дэвшилтэт судалгаанд өрсөлдөх чадварыг баталж байна.
Судалгааны мэдээлэл
- Гарчиг:GLM-5: Vibe Coding-оос Agentic Engineering рүү
- Байгууллага:ZhiPu AI & Tsinghua их сургууль
- Холбоос:https://arxiv.org/abs/2602.15763

