GLM-5:വൈബ് കോഡിംഗ് മുതൽ ഏജന്റിക് എഞ്ചിനീയറിംഗ് വരെ

2/26/2026
1 min read

GLM-5:വൈബ് കോഡിംഗ് മുതൽ ഏജന്റിക് എഞ്ചിനീയറിംഗ് വരെ

🎯 ഒരു വാക്കിൽ സംഗ്രഹം:智谱AI联合清华大学推出744B参数的GLM-5模型,通过DeepSeek Sparse Attention(DSA)压缩注意力计算量、全异步强化学习(Async RL)解决长任务训练效率、以及多阶段后训练流程,让大模型从"氛围编码"(Vibe Coding)进化到能独立完成真实工程项目的"智能体工程师"(Agentic Engineering)。

为什么需要这篇论文?

Andrej Karpathy在2025年初提出了一个有趣的概念——Vibe Coding,意思是你只要用自然语言描述需求、"凭感觉"让AI写代码就行。这确实是当前AI编程的主流体验:你说一句话,模型帮你生成一段代码,效果好不好全看运气。

但问题来了:真实的软件工程远不止"写代码"这么简单。一个真正的工程师需要理解项目架构、调试错误、管理依赖、处理跨模块协作——这些都不是"一句prompt出一段代码"能搞定的。GLM-5这篇论文要做的事情,就是让模型从"帮你写代码的助手"变成"能独立搞定整个项目的工程师"。

这不是一个小目标。为了达到它,智谱团队在模型架构、训练流程、强化学习算法上做了大量创新。这篇解读会带你拆解这些技术细节。

核心贡献:三板斧

在深入细节之前,先理清GLM-5的三个核心贡献:

贡献解决的问题核心思路DSA稀疏注意力128K长上下文的计算开销爆炸动态选择重要token,跳过不相关的,省1.5-2倍算力异步强化学习框架长任务RL训练中GPU大量空闲生成和训练完全解耦,流水线式并行多阶段后训练流程推理、编码、智能体等多能力难以兼顾SFT→推理RL→智能体RL→通用RL,逐步叠加能力

模型架构:在MoE的骨架上做"减法"

基础配置

GLM-5采用Mixture-of-Experts(MoE)架构,总参数744B,但每次推理只激活约40B参数。这种"大而稀疏"的设计已经成为行业共识——DeepSeek-V3/R1、Qwen3都走了类似路线。

DSA到底怎么工作?

DSA的核心思想可以用一个比喻来理解:想象你在图书馆找资料。标准注意力就像把整个图书馆的每本书都翻一遍,然后决定哪些有用。而DSA更像一个有经验的图书管理员——它先用闪电索引器(Lightning Index)快速扫描书架标题,锁定几个可能相关的区域,然后只精读这些区域里的具体段落。

训练流程:四段式"打怪升级"

GLM-5的训练流程是这篇论文的重头戏,分为预训练后训练两大阶段。

预训练阶段

  • 数据规模:27T token,数据混合比例包括网页、代码、学术论文、书籍等
  • 上下文扩展:通过中期训练把上下文从4K逐步扩展到200K,使用RoPE频率调整
  • 退火阶段:在预训练末尾用更高质量的数据做"精修"

后训练四步曲

这是GLM-5最有特色的部分。GLM-5搞了四轮

  • 监督微调(SFT)用高质量的指令数据做微调。
  • 推理强化学习(Reasoning RL)在数学和代码推理任务上做RL训练。
  • 智能体强化学习(Agentic RL),这是关键创新。
  • 通用强化学习(General RL),在更广泛的通用任务上做RL。

异步强化学习:让GPU不再"摸鱼"

传统的RL训练是同步的:采集一批数据 → 计算奖励 → 更新模型 → 再采集。这在任务时间短的情况下没问题,但智能体任务往往需要几十步交互。

实验结果深度解读

主要基准对比

基准GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9

总结

GLM-5这篇论文的信息量很大。抛开具体的数字不谈,它传递的核心信息是:大模型的下一个战场在"干活"而不只是"回答问题"

在竞争层面,GLM-5证明了中国AI团队在大模型前沿研究上的竞争力。

论文信息

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം 2026年4月1日,Anthropic 在 Claude Cod...

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയിTechnology

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി ഞാൻ എപ്പോഴും Obsidian-ന്റെ ആധാരഭ...

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചുTechnology

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചു

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റാ...

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരുംHealth

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും പുതിയ ...

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാംHealth

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം മാർച്ച് മാസത്തിന്റെ മധ്യത്തിൽ, നിങ്ങളുടെ കുറവാക്കൽ പദ്ധതിയേന്താണ്...

📝
Technology

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം ഈ ട്യൂട്ടോറിയൽ ഒരു സ്ഥിരമായ, ദീർഘകാല പ്രവർത്തനമുള്ള AI ബ്രൗസർ ...