Google が Deep Think をひっそりとアップグレード、ARC-AGI-2 でいきなり 84.6% を達成

2/14/2026
1 min read

Google が Deep Think をひっそりとアップグレード、ARC-AGI-2 でいきなり 84.6% を達成

先ほど、Google DeepMind が Gemini 3 の専用推論モード Deep Think をアップグレードし、ベンチマークでトップの成績を叩き出しました。

Deep Think

ご存知の通り、ARC-AGI-2 は現在、AI の推論能力をテストする最先端の基準として認められており、これまでこの基準で特に良いスコアを獲得できたモデルはありませんでした。

基准对比

しかし、アップグレード後の Deep Think は 84.6% を獲得 しました。比較すると、Claude Opus 4.6 は 68.8%、GPT-5.2 は 52.9%、自社の Gemini 3 Pro Preview でさえ 31.1% でした。

大幅な改善です。

推論だけではない

Deep Think の野心は明らかに推論だけにとどまりません。

不止推理

「人類最後の試験」と呼ばれる Humanity's Last Exam のベンチマークでは、Deep Think は 48.4% を獲得しました。このテストは、数学、科学、工学分野で最も難しい問題を網羅しています。Claude Opus 4.6 は 40.0%、GPT-5.2 は 34.5% でした。

プログラミングの面でも非常に優れています。

Codeforces では、Deep Think は Elo 3455 に達しましたが、Gemini 3 Pro Preview は 2512、Claude Opus 4.6 は 2352 でした。

Codeforces

また、マルチモーダル理解と推論の MMMU-Pro ベンチマークでも、Deep Think は 81.5% でトップを走っていますが、ここでは各社の差はそれほど大きくありません。Gemini 3 Pro Preview は 81.0%、GPT-5.2 は 79.5%、Claude Opus 4.6 は 73.9% でした。

MMMU-Pro

ベンチマークのスコアに加えて、Deep Think は 2025 年の物理および化学オリンピック競技会の筆記試験で金メダルレベルの成績を収めました。

科学的な問題を解決する

Google DeepMind は今回、アップグレード後の Deep Think は 単なる問題解決マシンではなく、現実世界の科学および工学の問題を解決する ことを特に強調しています。

科学问题

彼らは、デューク大学の Wang Lab の事例を紹介しました。研究者は Deep Think を使用して、高温半導体の候補材料である複雑な結晶の成長プロセスを最適化し、新しい半導体材料を設計しています。

Duke案例

机械工程

また、機械工学分野の研究者は、物理的なプロトタイプを反復処理するためにそれを使用し、ハードウェアの反復をソフトウェアの反復の速度に到達させました。これは、補助機器などの分野でより速い改善サイクルを意味します。

使い方

アップグレード後の Deep Think モードは、Gemini App で Google AI Ultra サブスクリプションのユーザーにすでに展開され始めています。

如何使用

研究者および開発者向けに、Google は Vertex AI 早期アクセスプログラム を公開しており、API を介して使用できます。

Vertex AI 早期アクセス:https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修正ガイド:どのようにしてシャイニングレジェンド級ペットを手に入れるか

Claude Code Buddy 修正ガイド:どのようにしてシャイニングレジェンド級ペットを手に入れるか 2026年4月1日、Anthropic は Claude Code 2.1.89 バージョンでひっそりとエッグ機能を追加しました——...

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げたTechnology

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた

ObsidianはDefuddleを発表し、Obsidian Web Clipperを新たな高みへと引き上げた 私はObsidianのコア理念がとても好きです:ローカルファースト、すべてはファイル、そして単純なMarkdownテキストファ...

OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認めるTechnology

OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める

OpenAIが突然発表した「三合一」:ブラウザ+プログラミング+ChatGPTの統合、内部で過去1年の誤りを認める 2026年3月19日深夜、OpenAI本社から内部メモが流出し、『ウォール・ストリート・ジャーナル』が真っ先に原文を入手し...

2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくるHealth

2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくる

2026年、自分を「自律」に縛らない!この8つの小さなことを実践すれば、健康は自然にやってくる 新しい年が始まりましたが、昨年立てた目標は達成できましたか?毎年「やる気満々」と「諦めたい」の間で揺れ動いていませんか? 2026年、考え方を...

努力しても痩せられないママたち、絶対にここでつまずいているHealth

努力しても痩せられないママたち、絶対にここでつまずいている

努力しても痩せられないママたち、絶対にここでつまずいている 3月も半ばを過ぎましたが、あなたのダイエット計画はどうですか?痩せましたか?どれくらい痩せましたか? 私のダイエット経験 2月末にダイエットを決意してから、実際にはどんどん体重...

📝
Technology

AIブラウザ 24時間安定運用ガイド

AIブラウザ 24時間安定運用ガイド 本チュートリアルでは、安定して長期間運用できるAIブラウザ環境の構築方法を紹介します。 対象 AIエージェント 自動化ブラウジング Web自動化 AIアシスタント 自動テストシステム 目標 ブラウザを...