GLM-5：जब बड़े मॉडल 'कोड लिखना' सीखते हैं, Vibe Coding से Agentic Engineering तक की यात्रा

❝

🎯 एक वाक्य में सारांश：智谱AI联合清华大学推出744B参数的GLM-5模型，通过DeepSeek Sparse Attention（DSA）压缩注意力计算量、全异步强化学习（Async RL）解决长任务训练效率、以及多阶段后训练流程，让大模型从'氛围编码'（Vibe Coding）进化到能独立完成真实工程项目的'智能体工程师'（Agentic Engineering）。

क्यों इस पेपर की आवश्यकता है？

Andrej Karpathy ने 2025 की शुरुआत में एक दिलचस्प अवधारणा प्रस्तुत की——Vibe Coding，जिसका अर्थ है कि आपको केवल प्राकृतिक भाषा में आवश्यकताओं का वर्णन करना है, 'अनुभव के आधार पर' AI को कोड लिखने देना है। यह वास्तव में वर्तमान AI प्रोग्रामिंग का मुख्य अनुभव है: आप एक वाक्य कहते हैं, मॉडल आपकी मदद के लिए एक कोड उत्पन्न करता है, इसका परिणाम अच्छा है या नहीं, यह पूरी तरह से भाग्य पर निर्भर करता है।

लेकिन समस्या यह है: वास्तविक सॉफ़्टवेयर इंजीनियरिंग 'कोड लिखने' से कहीं अधिक जटिल है। एक वास्तविक इंजीनियर को परियोजना की संरचना को समझना, त्रुटियों को डिबग करना, निर्भरताओं का प्रबंधन करना, और क्रॉस-मॉड्यूल सहयोग को संभालना आवश्यक है——ये सभी 'एक प्रॉम्प्ट पर एक कोड का टुकड़ा' से हल नहीं किए जा सकते। GLM-5 इस पेपर का उद्देश्य मॉडल को 'आपके लिए कोड लिखने वाले सहायक' से 'पूरी परियोजना को स्वतंत्र रूप से संभालने वाले इंजीनियर' में बदलना है।

यह कोई छोटा लक्ष्य नहीं है। इसे प्राप्त करने के लिए,智谱团队 ने मॉडल आर्किटेक्चर, प्रशिक्षण प्रक्रिया, और सुदृढीकरण सीखने के एल्गोरिदम में कई नवाचार किए हैं। यह व्याख्या आपको इन तकनीकी विवरणों को समझने में मदद करेगी।

मुख्य योगदान：तीन मुख्य बिंदु

गहराई में जाने से पहले, GLM-5 के तीन मुख्य योगदानों को स्पष्ट करें：

贡献解决的问题核心思路DSA稀疏注意力128K长上下文的计算开销爆炸动态选择重要token，跳过不相关的，省1.5-2倍算力异步强化学习框架长任务RL训练中GPU大量空闲生成和训练完全解耦，流水线式并行多阶段后训练流程推理、编码、智能体等多能力难以兼顾SFT→推理RL→智能体RL→通用RL，逐步叠加能力

मॉडल आर्किटेक्चर：MoE की संरचना पर 'घटाना'

बुनियादी कॉन्फ़िगरेशन

GLM-5采用Mixture-of-Experts（MoE）架构，总参数744B，但每次推理只激活约40B参数。这种'大而稀疏'的设计已经成为行业共识——DeepSeek-V3/R1、Qwen3都走了类似路线。

DSA वास्तव में कैसे काम करता है？

DSA का मुख्य विचार एक उपमा के माध्यम से समझा जा सकता है：कल्पना करें कि आप पुस्तकालय में सामग्री खोज रहे हैं। मानक ध्यान ऐसा है जैसे आप पुस्तकालय की हर किताब को पलटते हैं，然后决定哪些有用。而DSA更像一个有经验的图书管理员——它先用闪电索引器（Lightning Index）快速扫描书架标题，锁定几个可能相关的区域，然后只精读这些区域里的具体段落。

प्रशिक्षण प्रक्रिया：चार चरणों में 'स्तर बढ़ाना'

GLM-5 की प्रशिक्षण प्रक्रिया इस पेपर का मुख्य आकर्षण है，分为预训练和后训练两大阶段。

पूर्व-प्रशिक्षण चरण

डेटा का आकार：27T token，数据混合比例包括网页、代码、学术论文、书籍等
संदर्भ विस्तार：通过中期训练把上下文从4K逐步扩展到200K，使用RoPE频率调整
退火阶段：在预训练末尾用更高质量的数据做'精修'

बाद के प्रशिक्षण के चार चरण

यह GLM-5 का सबसे विशिष्ट हिस्सा है。GLM-5搞了四轮：

监督微调（SFT）用高质量的指令数据做微调。
推理强化学习（Reasoning RL）在数学和代码推理任务上做RL训练。
智能体强化学习（Agentic RL），这是关键创新。
通用强化学习（General RL），在更广泛的通用任务上做RL。

##异步强化学习：让GPU不再'摸鱼'

传统的RL训练是同步的：采集一批数据 → 计算奖励 → 更新模型 → 再采集。这在任务时间短的情况下没问题，但智能体任务往往需要几十步交互。

##实验结果深度解读

###主要基准对比

基准GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

##总结

GLM-5这篇论文的信息量很大。抛开具体的数字不谈，它传递的核心信息是：大模型的下一个战场在'干活'而不只是'回答问题'。

在竞争层面，GLM-5证明了中国AI团队在大模型前沿研究上的竞争力。

##论文信息

标题：GLM-5: from Vibe Coding to Agentic Engineering
机构：智谱AI & 清华大学
链接：https://arxiv.org/abs/2602.15763

GLM-5：जब बड़े मॉडल 'कोड लिखना' सीखते हैं, Vibe Coding से Agentic Engineering तक की यात्रा

GLM-5：जब बड़े मॉडल 'कोड लिखना' सीखते हैं, Vibe Coding से Agentic Engineering तक की यात्रा

क्यों इस पेपर की आवश्यकता है？

मुख्य योगदान：तीन मुख्य बिंदु

मॉडल आर्किटेक्चर：MoE की संरचना पर 'घटाना'

बुनियादी कॉन्फ़िगरेशन

DSA वास्तव में कैसे काम करता है？

प्रशिक्षण प्रक्रिया：चार चरणों में 'स्तर बढ़ाना'

पूर्व-प्रशिक्षण चरण

बाद के प्रशिक्षण के चार चरण

You Might Also Like

Claude Code Buddy संशोधन गाइड: कैसे प्राप्त करें चमकदार किंवदंती स्तर का पालतू

Obsidian ने Defuddle लॉन्च किया, Obsidian Web Clipper को एक नए स्तर पर ले गया

2026, खुद को 'स्वायत्त' करने के लिए मजबूर नहीं! ये 8 छोटी बातें करें, स्वास्थ्य स्वाभाविक रूप से आएगा

वे माताएँ जो वजन कम करने की कोशिश कर रही हैं लेकिन सफल नहीं हो रही हैं, निश्चित रूप से यहाँ फंस गई हैं

AI ब्राउज़र 24 घंटे स्थिर संचालन गाइड