Google tiše vylepšil Deep Think, ARC-AGI-2 rovnou na 84,6 %

Právě teď Google DeepMind vylepšil speciální odvozovací režim Gemini 3, Deep Think, a výsledky testů rovnou smetly konkurenci.

Deep Think

Je třeba vědět, že ARC-AGI-2 je v současnosti uznávaný špičkový benchmark pro testování schopností AI v oblasti odvozování a dříve na něm žádný model nedosáhl obzvláště dobrých výsledků.

基准对比

Zatímco vylepšený Deep Think dosáhl 84,6 %, pro srovnání: Claude Opus 4.6 má 68,8 %, GPT-5.2 má 52,9 % a dokonce i vlastní Gemini 3 Pro Preview má jen 31,1 %.

Obrovské zlepšení.

Nejen odvozování

Ambice Deep Think zjevně nespočívají pouze v odvozování.

不止推理

Na benchmarku Humanity's Last Exam, který je označován jako „poslední lidská zkouška“, dosáhl Deep Think 48,4 %. Tento test pokrývá nejobtížnější problémy v oblasti matematiky, vědy a inženýrství. Claude Opus 4.6 dosáhl 40,0 % a GPT-5.2 34,5 %.

Programování je také velmi silné:

Na Codeforces dosáhl Deep Think Elo 3455, zatímco Gemini 3 Pro Preview má 2512 a Claude Opus 4.6 má 2352.

Codeforces

Kromě toho na benchmarku MMMU-Pro pro multimodální porozumění a odvozování vede Deep Think s 81,5 %, ale rozdíly mezi jednotlivými společnostmi zde nejsou tak velké: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

MMMU-Pro

Kromě výsledků testů dosáhl Deep Think v písemné části fyzikální a chemické olympiády v roce 2025 výsledků na úrovni zlaté medaile.

Chce řešit vědecké problémy

Google DeepMind tentokrát zvláště zdůraznil, že vylepšený Deep Think už není jen stroj na řešení problémů, ale má řešit skutečné vědecké a inženýrské problémy.

科学问题

Představili případ Wang Lab z Duke University: výzkumníci používají Deep Think k navrhování nových polovodičových materiálů a optimalizaci procesu růstu složitých krystalů, které jsou kandidáty na vysokoteplotní polovodiče.

Duke案例

机械工程

Výzkumníci v oblasti strojírenství jej také používají k iteraci fyzických prototypů, čímž dosahují rychlosti iterace hardwaru jako u iterace softwaru, což v oblastech, jako jsou pomocná zařízení, znamená rychlejší cykly zlepšování.

Jak používat

Vylepšený režim Deep Think se nyní začíná zavádět v aplikaci Gemini pro uživatele s předplatným Google AI Ultra.

如何使用

Pro výzkumníky a vývojáře Google zpřístupnil program včasného přístupu Vertex AI, který lze používat prostřednictvím API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq

Google tiše vylepšil Deep Think, ARC-AGI-2 rovnou na 84,6 %

Google tiše vylepšil Deep Think, ARC-AGI-2 rovnou na 84,6 %

Nejen odvozování

Chce řešit vědecké problémy

Jak používat

You Might Also Like

Claude Code Buddy úpravy: Jak získat lesklého legendárního mazlíčka

Obsidian uvedl Defuddle, který posunul Obsidian Web Clipper na novou úroveň

OpenAI náhle oznámila "třív jednom": sloučení prohlížeče + programování + ChatGPT, interně přiznává, že se v uplynulém roce mýlila

2026, už se nenuťte k "sebeovládání"! Udělejte těchto 8 drobností a zdraví přijde přirozeně

Ty matky, které se snaží zhubnout, ale nedaří se jim, se určitě potýkají s tímto problémem

AI Browser 24 hodinový stabilní provozní průvodce