GPTのコストの壁

過去一週間、X（旧Twitter）上でのGPTに関する議論の焦点は、能力ではなくコストに移ってきました。

ARC-AGI：知能の境界

現在最先端のモデルのARC-AGI-2でのパフォーマンス：

54%から73%の差は知能の問題ではなく、「精錬」——モデルに自分の答えを繰り返しチェックさせることです。これにはより多くの計算が必要となり、より高いコストを意味します。

24時間365日稼働するエンタープライズレベルのAgent（1日あたり2000万入力 + 2000万出力トークン）の年間コスト：

GPT-5.2 ProはGPT-5.2 Standardより12倍高いです。これは価格設定戦略の問題ではなく、コスト構造の問題です。

"Before you deploy 100 AI agents, run the math." — @waseem_s （100個のAIエージェントをデプロイする前に、計算を実行してください。）

簡単な質問が新しい知能テストになりつつあります：

「洗車場は私の家から40メートル離れています。洗車したいのですが、歩いて行くべきですか、それとも車で行くべきですか？」

合格したモデル： GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro 失敗したモデル： GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

なぜこのテストが意味があるのでしょうか？それは「常識推論」をテストしているからです。「知識検索」ではありません。40メートルは歩ける距離です。車は汚れていて洗う必要があります。しかし、汚れた車を40メートル運転して洗車に行くことはありません——常識がなければ別ですが。

"専門家システムは1970年代に誕生し、1980年代に隆盛を極め、AIの未来として広く認識されました。" — @ChombaBupe （専門家システムは1970年代に誕生し、1980年代に隆盛を極め、AIの未来として広く認識されました。）

GPTモデルは2018年に誕生し、2020年代に隆盛を極め、AIの未来として広く認識されています。

専門家システムの失敗は、十分に賢くなかったからではなく、維持コストが高すぎ、拡張性が低すぎたからです。知識ベースを手動でメンテナンスする必要がある場合、規模は敵となります。

GPTが直面しているのは鏡像の問題です：モデルは賢いですが、推論コストが高すぎます。各リクエストに大量の計算が必要な場合、規模は同様に敵となります。

今週は複数の新しいモデルがリリースされる予定です：Gemini 3.1 Pro、Claude Sonnet 5、GPT-5.3、DeepSeek V4、Qwen 3.5。

競争は「誰がより賢いか」から「誰がより安いか」へと移行しています。これはユーザーにとっては良いニュースです。OpenAIにとっては？必ずしもそうではありません。