GPTのコストの壁
過去一週間、X(旧Twitter)上でのGPTに関する議論の焦点は、能力ではなくコストに移ってきました。
ARC-AGI:知能の境界
現在最先端のモデルのARC-AGI-2でのパフォーマンス:
| モデル | ARC-AGI-2 スコア |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| 人類 | 100% |
54%から73%の差は知能の問題ではなく、「精錬」——モデルに自分の答えを繰り返しチェックさせることです。これにはより多くの計算が必要となり、より高いコストを意味します。
Agentの真のコスト
24時間365日稼働するエンタープライズレベルのAgent(1日あたり2000万入力 + 2000万出力トークン)の年間コスト:
| モデル | 年間コスト |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 ProはGPT-5.2 Standardより12倍高いです。これは価格設定戦略の問題ではなく、コスト構造の問題です。
"Before you deploy 100 AI agents, run the math." — @waseem_s (100個のAIエージェントをデプロイする前に、計算を実行してください。)
新しいチューリングテスト
簡単な質問が新しい知能テストになりつつあります:
「洗車場は私の家から40メートル離れています。洗車したいのですが、歩いて行くべきですか、それとも車で行くべきですか?」
合格したモデル: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro 失敗したモデル: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
なぜこのテストが意味があるのでしょうか?それは「常識推論」をテストしているからです。「知識検索」ではありません。40メートルは歩ける距離です。車は汚れていて洗う必要があります。しかし、汚れた車を40メートル運転して洗車に行くことはありません——常識がなければ別ですが。
歴史は繰り返さないが、韻を踏む
"専門家システムは1970年代に誕生し、1980年代に隆盛を極め、AIの未来として広く認識されました。" — @ChombaBupe (専門家システムは1970年代に誕生し、1980年代に隆盛を極め、AIの未来として広く認識されました。)
GPTモデルは2018年に誕生し、2020年代に隆盛を極め、AIの未来として広く認識されています。
専門家システムの失敗は、十分に賢くなかったからではなく、維持コストが高すぎ、拡張性が低すぎたからです。知識ベースを手動でメンテナンスする必要がある場合、規模は敵となります。
GPTが直面しているのは鏡像の問題です:モデルは賢いですが、推論コストが高すぎます。各リクエストに大量の計算が必要な場合、規模は同様に敵となります。
次のステップ
今週は複数の新しいモデルがリリースされる予定です:Gemini 3.1 Pro、Claude Sonnet 5、GPT-5.3、DeepSeek V4、Qwen 3.5。
競争は「誰がより賢いか」から「誰がより安いか」へと移行しています。これはユーザーにとっては良いニュースです。OpenAIにとっては?必ずしもそうではありません。





