Google тихо оновила Deep Think, ARC-AGI-2 одразу досяг 84.6%

Щойно Google DeepMind оновила спеціальний режим міркування Gemini 3 Deep Think, і результати одразу стали найкращими.

Deep Think

Варто знати, що ARC-AGI-2 є загальновизнаним передовим еталоном для тестування можливостей AI до міркування, і раніше жодна модель не могла отримати на ньому особливо хороші результати.

基准对比

А оновлений Deep Think набрав 84.6%, для порівняння: Claude Opus 4.6 – 68.8%, GPT-5.2 – 52.9%, і навіть власний Gemini 3 Pro Preview – лише 31.1%.

Величезне покращення.

Не тільки міркування

Амбіції Deep Think явно не обмежуються лише міркуванням.

不止推理

У тесті Humanity's Last Exam, який називають «останнім іспитом людства», Deep Think набрав 48.4%. Цей тест охоплює найскладніші питання в галузі математики, науки та інженерії. Claude Opus 4.6 отримав 40.0%, GPT-5.2 – 34.5%.

У програмуванні також дуже потужно:

На Codeforces Deep Think досяг Elo 3455, тоді як Gemini 3 Pro Preview – 2512, Claude Opus 4.6 – 2352.

Codeforces

Крім того, на еталоні багатомодального розуміння та міркування MMMU-Pro Deep Think також лідирує з 81.5%, але тут різниця між різними компаніями не така велика: Gemini 3 Pro Preview – 81.0%, GPT-5.2 – 79.5%, Claude Opus 4.6 – 73.9%.

MMMU-Pro

Окрім результатів тестування, Deep Think також отримав результат рівня золотої медалі на письмовій частині фізичної та хімічної олімпіади 2025 року.

Щоб вирішувати наукові проблеми

Google DeepMind цього разу особливо підкреслила, що оновлений Deep Think більше не просто машина для розв'язання задач, а має вирішувати реальні наукові та інженерні проблеми.

科学问题

Вони продемонстрували приклад Wang Lab з Університету Дюка: дослідники використовують Deep Think для розробки нових напівпровідникових матеріалів, оптимізуючи процес росту складних кристалів, які є кандидатами на високотемпературні напівпровідники.

Duke案例

机械工程

А дослідники в галузі машинобудування використовують його для ітерації фізичних прототипів, дозволяючи апаратним ітераціям досягати швидкості ітерацій програмного забезпечення, що означає швидший цикл вдосконалення в таких областях, як допоміжне обладнання.

Як використовувати

Оновлений режим Deep Think тепер починає розгортатися в Gemini App для користувачів, які підписалися на Google AI Ultra.

如何使用

Для дослідників і розробників Google відкрила програму раннього доступу Vertex AI, яку можна використовувати через API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq

Google тихо оновила Deep Think, ARC-AGI-2 одразу досяг 84.6%

Google тихо оновила Deep Think, ARC-AGI-2 одразу досяг 84.6%

Не тільки міркування

Щоб вирішувати наукові проблеми

Як використовувати

You Might Also Like

Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого року

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди

AI Browser 24 години стабільної роботи: посібник