Google が Deep Think をひっそりとアップグレード、ARC-AGI-2 でいきなり 84.6% を達成
Google が Deep Think をひっそりとアップグレード、ARC-AGI-2 でいきなり 84.6% を達成
先ほど、Google DeepMind が Gemini 3 の専用推論モード Deep Think をアップグレードし、ベンチマークでトップの成績を叩き出しました。

ご存知の通り、ARC-AGI-2 は現在、AI の推論能力をテストする最先端の基準として認められており、これまでこの基準で特に良いスコアを獲得できたモデルはありませんでした。

しかし、アップグレード後の Deep Think は 84.6% を獲得 しました。比較すると、Claude Opus 4.6 は 68.8%、GPT-5.2 は 52.9%、自社の Gemini 3 Pro Preview でさえ 31.1% でした。
大幅な改善です。
推論だけではない
Deep Think の野心は明らかに推論だけにとどまりません。

「人類最後の試験」と呼ばれる Humanity's Last Exam のベンチマークでは、Deep Think は 48.4% を獲得しました。このテストは、数学、科学、工学分野で最も難しい問題を網羅しています。Claude Opus 4.6 は 40.0%、GPT-5.2 は 34.5% でした。
プログラミングの面でも非常に優れています。
Codeforces では、Deep Think は Elo 3455 に達しましたが、Gemini 3 Pro Preview は 2512、Claude Opus 4.6 は 2352 でした。

また、マルチモーダル理解と推論の MMMU-Pro ベンチマークでも、Deep Think は 81.5% でトップを走っていますが、ここでは各社の差はそれほど大きくありません。Gemini 3 Pro Preview は 81.0%、GPT-5.2 は 79.5%、Claude Opus 4.6 は 73.9% でした。

ベンチマークのスコアに加えて、Deep Think は 2025 年の物理および化学オリンピック競技会の筆記試験で金メダルレベルの成績を収めました。
科学的な問題を解決する
Google DeepMind は今回、アップグレード後の Deep Think は 単なる問題解決マシンではなく、現実世界の科学および工学の問題を解決する ことを特に強調しています。

彼らは、デューク大学の Wang Lab の事例を紹介しました。研究者は Deep Think を使用して、高温半導体の候補材料である複雑な結晶の成長プロセスを最適化し、新しい半導体材料を設計しています。


また、機械工学分野の研究者は、物理的なプロトタイプを反復処理するためにそれを使用し、ハードウェアの反復をソフトウェアの反復の速度に到達させました。これは、補助機器などの分野でより速い改善サイクルを意味します。
使い方
アップグレード後の Deep Think モードは、Gemini App で Google AI Ultra サブスクリプションのユーザーにすでに展開され始めています。

研究者および開発者向けに、Google は Vertex AI 早期アクセスプログラム を公開しており、API を介して使用できます。
Vertex AI 早期アクセス:https://goo.gle/4rMHUlq

