Google тихо оновила Deep Think, ARC-AGI-2 одразу досяг 84.6%

2/14/2026
2 min read

Google тихо оновила Deep Think, ARC-AGI-2 одразу досяг 84.6%

Щойно Google DeepMind оновила спеціальний режим міркування Gemini 3 Deep Think, і результати одразу стали найкращими.

Deep Think

Варто знати, що ARC-AGI-2 є загальновизнаним передовим еталоном для тестування можливостей AI до міркування, і раніше жодна модель не могла отримати на ньому особливо хороші результати.

基准对比

А оновлений Deep Think набрав 84.6%, для порівняння: Claude Opus 4.6 – 68.8%, GPT-5.2 – 52.9%, і навіть власний Gemini 3 Pro Preview – лише 31.1%.

Величезне покращення.

Не тільки міркування

Амбіції Deep Think явно не обмежуються лише міркуванням.

不止推理

У тесті Humanity's Last Exam, який називають «останнім іспитом людства», Deep Think набрав 48.4%. Цей тест охоплює найскладніші питання в галузі математики, науки та інженерії. Claude Opus 4.6 отримав 40.0%, GPT-5.2 – 34.5%.

У програмуванні також дуже потужно:

На Codeforces Deep Think досяг Elo 3455, тоді як Gemini 3 Pro Preview – 2512, Claude Opus 4.6 – 2352.

Codeforces

Крім того, на еталоні багатомодального розуміння та міркування MMMU-Pro Deep Think також лідирує з 81.5%, але тут різниця між різними компаніями не така велика: Gemini 3 Pro Preview – 81.0%, GPT-5.2 – 79.5%, Claude Opus 4.6 – 73.9%.

MMMU-Pro

Окрім результатів тестування, Deep Think також отримав результат рівня золотої медалі на письмовій частині фізичної та хімічної олімпіади 2025 року.

Щоб вирішувати наукові проблеми

Google DeepMind цього разу особливо підкреслила, що оновлений Deep Think більше не просто машина для розв'язання задач, а має вирішувати реальні наукові та інженерні проблеми.

科学问题

Вони продемонстрували приклад Wang Lab з Університету Дюка: дослідники використовують Deep Think для розробки нових напівпровідникових матеріалів, оптимізуючи процес росту складних кристалів, які є кандидатами на високотемпературні напівпровідники.

Duke案例

机械工程

А дослідники в галузі машинобудування використовують його для ітерації фізичних прототипів, дозволяючи апаратним ітераціям досягати швидкості ітерацій програмного забезпечення, що означає швидший цикл вдосконалення в таких областях, як допоміжне обладнання.

Як використовувати

Оновлений режим Deep Think тепер починає розгортатися в Gemini App для користувачів, які підписалися на Google AI Ultra.

如何使用

Для дослідників і розробників Google відкрила програму раннього доступу Vertex AI, яку можна використовувати через API.

Vertex AI 早期访问:https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця

Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця 1 квітня 2026 року, Anthropic тихо запустила функ...

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівеньTechnology

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень Я завжди любив основну ідею Obsidian: локальн...

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого рокуTechnology

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого року

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок м...

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природноHealth

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно Новий рік почи...

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюдиHealth

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди Травень вже минув, як ваш план схуднення?...

📝
Technology

AI Browser 24 години стабільної роботи: посібник

AI Browser 24 години стабільної роботи: посібник Цей посібник описує, як налаштувати стабільне, тривале середовище для A...