Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%
Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%
Току-що, Google DeepMind обновиха специализирания режим за разсъждения на Gemini 3, Deep Think, и резултатите директно оглавиха класациите.

Трябва да се знае, че ARC-AGI-2 е понастоящем признат за водещ бенчмарк за тестване на способностите за AI разсъждения, и преди това никой модел не е успявал да постигне особено добри резултати на него.

А обновеният Deep Think постигна 84.6%, за сравнение: Claude Opus 4.6 е 68.8%, GPT-5.2 е 52.9%, дори собственият Gemini 3 Pro Preview е само 31.1%.
Огромно подобрение.
Не само разсъждения
Амбициите на Deep Think очевидно не се ограничават само до разсъждения.

На бенчмарка Humanity's Last Exam, който е известен като „Последният изпит на човечеството“, Deep Think постигна 48.4%. Този тест обхваща най-трудните въпроси в областта на математиката, науката и инженерството. Claude Opus 4.6 получи 40.0%, а GPT-5.2 – 34.5%.
В програмирането също е много силен:
В Codeforces Deep Think достигна Elo 3455, докато Gemini 3 Pro Preview е 2512, а Claude Opus 4.6 е 2352.

Освен това, на бенчмарка MMMU-Pro за мултимодално разбиране и разсъждения, Deep Think също води с 81.5%, но тук разликите между отделните играчи не са толкова големи: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

Освен резултатите, Deep Think също така постигна резултат на ниво златен медал в писмената част на физическия и химическия олимпийски конкурс през 2025 г.
За решаване на научни проблеми
Google DeepMind този път специално подчертаха, че обновеният Deep Think вече не е просто машина за решаване на проблеми, а е предназначен да решава научни и инженерни проблеми от реалния свят.

Те представиха случай от Wang Lab на университета Duke: изследователите използват Deep Think за проектиране на нови полупроводникови материали, оптимизиране на процеса на растеж на сложни кристали, които са кандидати за високотемпературни полупроводници.


Също така, изследователи в областта на машинното инженерство го използват за итерация на физически прототипи, позволявайки на хардуерната итерация да достигне скоростта на софтуерната итерация, което означава по-бързи цикли на подобрение в области като помощни устройства.
Как да използвате
Обновеният режим Deep Think вече започна да се разпространява в Gemini App към потребителите, абонирани за Google AI Ultra.

За изследователи и разработчици, Google отвори програма за ранен достъп до Vertex AI, която може да се използва чрез API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq (Vertex AI ранен достъп: https://goo.gle/4rMHUlq)





