Google tiše vylepšil Deep Think, ARC-AGI-2 rovnou na 84,6 %
Google tiše vylepšil Deep Think, ARC-AGI-2 rovnou na 84,6 %
Právě teď Google DeepMind vylepšil speciální odvozovací režim Gemini 3, Deep Think, a výsledky testů rovnou smetly konkurenci.

Je třeba vědět, že ARC-AGI-2 je v současnosti uznávaný špičkový benchmark pro testování schopností AI v oblasti odvozování a dříve na něm žádný model nedosáhl obzvláště dobrých výsledků.

Zatímco vylepšený Deep Think dosáhl 84,6 %, pro srovnání: Claude Opus 4.6 má 68,8 %, GPT-5.2 má 52,9 % a dokonce i vlastní Gemini 3 Pro Preview má jen 31,1 %.
Obrovské zlepšení.
Nejen odvozování
Ambice Deep Think zjevně nespočívají pouze v odvozování.

Na benchmarku Humanity's Last Exam, který je označován jako „poslední lidská zkouška“, dosáhl Deep Think 48,4 %. Tento test pokrývá nejobtížnější problémy v oblasti matematiky, vědy a inženýrství. Claude Opus 4.6 dosáhl 40,0 % a GPT-5.2 34,5 %.
Programování je také velmi silné:
Na Codeforces dosáhl Deep Think Elo 3455, zatímco Gemini 3 Pro Preview má 2512 a Claude Opus 4.6 má 2352.

Kromě toho na benchmarku MMMU-Pro pro multimodální porozumění a odvozování vede Deep Think s 81,5 %, ale rozdíly mezi jednotlivými společnostmi zde nejsou tak velké: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

Kromě výsledků testů dosáhl Deep Think v písemné části fyzikální a chemické olympiády v roce 2025 výsledků na úrovni zlaté medaile.
Chce řešit vědecké problémy
Google DeepMind tentokrát zvláště zdůraznil, že vylepšený Deep Think už není jen stroj na řešení problémů, ale má řešit skutečné vědecké a inženýrské problémy.

Představili případ Wang Lab z Duke University: výzkumníci používají Deep Think k navrhování nových polovodičových materiálů a optimalizaci procesu růstu složitých krystalů, které jsou kandidáty na vysokoteplotní polovodiče.


Výzkumníci v oblasti strojírenství jej také používají k iteraci fyzických prototypů, čímž dosahují rychlosti iterace hardwaru jako u iterace softwaru, což v oblastech, jako jsou pomocná zařízení, znamená rychlejší cykly zlepšování.
Jak používat
Vylepšený režim Deep Think se nyní začíná zavádět v aplikaci Gemini pro uživatele s předplatným Google AI Ultra.

Pro výzkumníky a vývojáře Google zpřístupnil program včasného přístupu Vertex AI, který lze používat prostřednictvím API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





