GLM-5:大規模モデルが「自分でコードを書く」ことを学ぶとき、Vibe CodingからAgentic Engineeringへの飛躍
GLM-5:大規模モデルが「自分でコードを書く」ことを学ぶとき、Vibe CodingからAgentic Engineeringへの飛躍
❝
🎯 一言でまとめると:智谱AIは清華大学と共同で744BパラメータのGLM-5モデルを発表しました。DeepSeek Sparse Attention(DSA)を用いて注意計算量を圧縮し、全非同期強化学習(Async RL)で長タスクのトレーニング効率を解決し、多段階の後トレーニングプロセスを通じて、大規模モデルを「雰囲気コーディング」(Vibe Coding)から、実際のエンジニアリングプロジェクトを独立して完遂できる「エージェントエンジニア」(Agentic Engineering)へと進化させます。
なぜこの論文が必要なのか?
Andrej Karpathyは2025年初頭に興味深い概念を提唱しました——Vibe Coding、つまり自然言語で要求を説明し、「感覚」でAIにコードを書かせるということです。これは確かに現在のAIプログラミングの主流体験です:あなたが一言言うと、モデルがコードを生成し、その結果は運次第です。
しかし問題が発生します:実際のソフトウェアエンジニアリングは「コードを書く」だけではありません。真のエンジニアはプロジェクトのアーキテクチャを理解し、エラーをデバッグし、依存関係を管理し、モジュール間の協力を処理する必要があります——これらは「一つのプロンプトで一段のコード」を出すだけでは解決できません。GLM-5のこの論文が目指すのは、モデルを「コードを書く助手」から「プロジェクト全体を独立して解決できるエンジニア」に変えることです。
これは小さな目標ではありません。これを達成するために、智谱チームはモデルアーキテクチャ、トレーニングプロセス、強化学習アルゴリズムにおいて多くの革新を行いました。この解説では、これらの技術的詳細を分解していきます。
コアの貢献:三つの柱
詳細に入る前に、GLM-5の三つのコアの貢献を整理しましょう:
貢献が解決する問題の核心思想DSAスパースアテンション128K長文脈の計算コストが爆発的に増加重要なトークンを動的に選択し、無関係なものをスキップして1.5-2倍の計算力を節約非同期強化学習フレームワーク長タスクのRLトレーニング中にGPUが大量にアイドル状態生成とトレーニングを完全にデカップリングし、パイプライン式に並行処理多段階後トレーニングプロセス推論、コーディング、エージェントなどの多様な能力を兼ね備えるSFT→推論RL→エージェントRL→一般RL、能力を段階的に積み重ねる
モデルアーキテクチャ:MoEの骨格上での「減算」
基本構成
GLM-5はMixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータは744Bですが、推論時には約40Bのパラメータのみがアクティブになります。この「大きくてスパースな」設計は業界の共通認識となっています——DeepSeek-V3/R1、Qwen3も同様のルートを辿っています。
DSAは具体的にどう機能するのか?
DSAの核心的な考え方は比喩で理解できます:図書館で資料を探していると想像してください。標準アテンションは図書館のすべての本を一冊ずつめくり、どれが有用かを決定するようなものです。一方、DSAは経験豊富な図書館員のようです——まずライトニングインデクサー(Lightning Index)を使って書架のタイトルを素早くスキャンし、いくつかの関連する領域を特定し、その後、これらの領域の具体的な段落を精読します。
トレーニングプロセス:四段階の「レベルアップ」
GLM-5のトレーニングプロセスはこの論文の主役であり、事前トレーニングと後トレーニングの二大段階に分かれています。
事前トレーニング段階
- データ規模:27Tトークン、データの混合比率にはウェブページ、コード、学術論文、書籍などが含まれます
- 文脈の拡張:中期トレーニングを通じて文脈を4Kから徐々に200Kに拡張し、RoPE周波数調整を使用
- アニーリング段階:事前トレーニングの最後により高品質なデータで「精練」
後トレーニング四部作
これはGLM-5の最も特徴的な部分です。GLM-5は四回行いました:
- 監視微調整(SFT)高品質な指示データで微調整を行います。
- 推論強化学習(Reasoning RL)数学とコード推論タスクでRLトレーニングを行います。
- エージェント強化学習(Agentic RL)、これは重要な革新です。
- 一般強化学習(General RL)、より広範な一般タスクでRLを行います。
非同期強化学習:GPUが「サボらない」ように
従来のRLトレーニングは同期です:データを一括収集 → 報酬を計算 → モデルを更新 → 再収集。これはタスクの時間が短い場合には問題ありませんが、エージェントタスクはしばしば数十ステップのインタラクションを必要とします。
実験結果の深い解読
主要ベンチマーク比較
ベンチマークGLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
まとめ
GLM-5のこの論文は情報量が非常に多いです。具体的な数字を除いても、伝えたい核心的なメッセージは:大規模モデルの次の戦場は「作業をする」ことであり、「質問に答える」だけではない。
競争の観点から、GLM-5は中国のAIチームが大規模モデルの最前線研究において競争力を持っていることを証明しました。
論文情報
- タイトル:GLM-5: from Vibe Coding to Agentic Engineering
- 機関:智谱AI & 清華大学
- リンク:https://arxiv.org/abs/2602.15763

