Google тихо обновила Deep Think, ARC-AGI-2 сразу до 84.6%
Google тихо обновила Deep Think, ARC-AGI-2 сразу до 84.6%
Только что Google DeepMind обновила специальный режим рассуждений Gemini 3 Deep Think, и результаты тестов просто разгромили всех.

Следует знать, что ARC-AGI-2 в настоящее время является общепризнанным передовым эталоном для тестирования возможностей рассуждений ИИ, и раньше ни одна модель не могла получить на нем особенно хорошие результаты.

А обновленный Deep Think набрал 84.6%, для сравнения: Claude Opus 4.6 - 68.8%, GPT-5.2 - 52.9%, и даже собственный Gemini 3 Pro Preview всего 31.1%.
Огромное улучшение.
Не только рассуждения
Амбиции Deep Think явно не ограничиваются рассуждениями.

В тесте Humanity's Last Exam, который называют «последним экзаменом человечества», Deep Think набрал 48.4%. Этот тест охватывает самые сложные вопросы в области математики, науки и инженерии. Claude Opus 4.6 набрал 40.0%, GPT-5.2 - 34.5%.
В программировании тоже очень круто:
На Codeforces Deep Think достиг Elo 3455, в то время как Gemini 3 Pro Preview - 2512, Claude Opus 4.6 - 2352.

Кроме того, в эталоне MMMU-Pro для мультимодального понимания и рассуждений Deep Think также лидирует с 81.5%, хотя здесь разница между разными моделями не так велика: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

Помимо результатов тестов, Deep Think также получил результаты уровня золотой медали на письменной части физической и химической олимпиады 2025 года.
Решение научных проблем
Google DeepMind на этот раз особо подчеркнула, что обновленный Deep Think больше не просто машина для решения задач, а предназначен для решения реальных научных и инженерных проблем.

Они продемонстрировали пример из Wang Lab Университета Дьюка: исследователи используют Deep Think для разработки новых полупроводниковых материалов, оптимизируя процесс выращивания сложных кристаллов, которые являются кандидатами в высокотемпературные полупроводники.


А исследователи в области машиностроения используют его для итерации физических прототипов, позволяя итерации оборудования достигать скорости итерации программного обеспечения, что означает более быстрые циклы улучшения в таких областях, как вспомогательное оборудование.
Как использовать
Обновленный режим Deep Think теперь начал распространяться в приложении Gemini среди подписчиков Google AI Ultra.

Для исследователей и разработчиков Google открыла программу раннего доступа Vertex AI, которую можно использовать через API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





