Google тихо обновила Deep Think, ARC-AGI-2 сразу до 84.6%

Только что Google DeepMind обновила специальный режим рассуждений Gemini 3 Deep Think, и результаты тестов просто разгромили всех.

Deep Think

Следует знать, что ARC-AGI-2 в настоящее время является общепризнанным передовым эталоном для тестирования возможностей рассуждений ИИ, и раньше ни одна модель не могла получить на нем особенно хорошие результаты.

基准对比

А обновленный Deep Think набрал 84.6%, для сравнения: Claude Opus 4.6 - 68.8%, GPT-5.2 - 52.9%, и даже собственный Gemini 3 Pro Preview всего 31.1%.

Огромное улучшение.

Не только рассуждения

Амбиции Deep Think явно не ограничиваются рассуждениями.

不止推理

В тесте Humanity's Last Exam, который называют «последним экзаменом человечества», Deep Think набрал 48.4%. Этот тест охватывает самые сложные вопросы в области математики, науки и инженерии. Claude Opus 4.6 набрал 40.0%, GPT-5.2 - 34.5%.

В программировании тоже очень круто:

На Codeforces Deep Think достиг Elo 3455, в то время как Gemini 3 Pro Preview - 2512, Claude Opus 4.6 - 2352.

Codeforces

Кроме того, в эталоне MMMU-Pro для мультимодального понимания и рассуждений Deep Think также лидирует с 81.5%, хотя здесь разница между разными моделями не так велика: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Помимо результатов тестов, Deep Think также получил результаты уровня золотой медали на письменной части физической и химической олимпиады 2025 года.

Решение научных проблем

Google DeepMind на этот раз особо подчеркнула, что обновленный Deep Think больше не просто машина для решения задач, а предназначен для решения реальных научных и инженерных проблем.

科学问题

Они продемонстрировали пример из Wang Lab Университета Дьюка: исследователи используют Deep Think для разработки новых полупроводниковых материалов, оптимизируя процесс выращивания сложных кристаллов, которые являются кандидатами в высокотемпературные полупроводники.

Duke案例

机械工程

А исследователи в области машиностроения используют его для итерации физических прототипов, позволяя итерации оборудования достигать скорости итерации программного обеспечения, что означает более быстрые циклы улучшения в таких областях, как вспомогательное оборудование.

Как использовать

Обновленный режим Deep Think теперь начал распространяться в приложении Gemini среди подписчиков Google AI Ultra.

如何使用

Для исследователей и разработчиков Google открыла программу раннего доступа Vertex AI, которую можно использовать через API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq

Google тихо обновила Deep Think, ARC-AGI-2 сразу до 84.6%

Google тихо обновила Deep Think, ARC-AGI-2 сразу до 84.6%

Не только рассуждения

Решение научных проблем

Как использовать

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

AI Browser 24小时稳定运行指南