Google тихо оновила Deep Think, ARC-AGI-2 одразу досяг 84.6%
Google тихо оновила Deep Think, ARC-AGI-2 одразу досяг 84.6%
Щойно Google DeepMind оновила спеціальний режим міркування Gemini 3 Deep Think, і результати одразу стали найкращими.

Варто знати, що ARC-AGI-2 є загальновизнаним передовим еталоном для тестування можливостей AI до міркування, і раніше жодна модель не могла отримати на ньому особливо хороші результати.

А оновлений Deep Think набрав 84.6%, для порівняння: Claude Opus 4.6 – 68.8%, GPT-5.2 – 52.9%, і навіть власний Gemini 3 Pro Preview – лише 31.1%.
Величезне покращення.
Не тільки міркування
Амбіції Deep Think явно не обмежуються лише міркуванням.

У тесті Humanity's Last Exam, який називають «останнім іспитом людства», Deep Think набрав 48.4%. Цей тест охоплює найскладніші питання в галузі математики, науки та інженерії. Claude Opus 4.6 отримав 40.0%, GPT-5.2 – 34.5%.
У програмуванні також дуже потужно:
На Codeforces Deep Think досяг Elo 3455, тоді як Gemini 3 Pro Preview – 2512, Claude Opus 4.6 – 2352.

Крім того, на еталоні багатомодального розуміння та міркування MMMU-Pro Deep Think також лідирує з 81.5%, але тут різниця між різними компаніями не така велика: Gemini 3 Pro Preview – 81.0%, GPT-5.2 – 79.5%, Claude Opus 4.6 – 73.9%.

Окрім результатів тестування, Deep Think також отримав результат рівня золотої медалі на письмовій частині фізичної та хімічної олімпіади 2025 року.
Щоб вирішувати наукові проблеми
Google DeepMind цього разу особливо підкреслила, що оновлений Deep Think більше не просто машина для розв'язання задач, а має вирішувати реальні наукові та інженерні проблеми.

Вони продемонстрували приклад Wang Lab з Університету Дюка: дослідники використовують Deep Think для розробки нових напівпровідникових матеріалів, оптимізуючи процес росту складних кристалів, які є кандидатами на високотемпературні напівпровідники.


А дослідники в галузі машинобудування використовують його для ітерації фізичних прототипів, дозволяючи апаратним ітераціям досягати швидкості ітерацій програмного забезпечення, що означає швидший цикл вдосконалення в таких областях, як допоміжне обладнання.
Як використовувати
Оновлений режим Deep Think тепер починає розгортатися в Gemini App для користувачів, які підписалися на Google AI Ultra.

Для дослідників і розробників Google відкрила програму раннього доступу Vertex AI, яку можна використовувати через API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





