Google тихо обновила Deep Think, ARC-AGI-2 сразу до 84.6%

2/14/2026
2 min read

Google тихо обновила Deep Think, ARC-AGI-2 сразу до 84.6%

Только что Google DeepMind обновила специальный режим рассуждений Gemini 3 Deep Think, и результаты тестов просто разгромили всех.

Deep Think

Следует знать, что ARC-AGI-2 в настоящее время является общепризнанным передовым эталоном для тестирования возможностей рассуждений ИИ, и раньше ни одна модель не могла получить на нем особенно хорошие результаты.

基准对比

А обновленный Deep Think набрал 84.6%, для сравнения: Claude Opus 4.6 - 68.8%, GPT-5.2 - 52.9%, и даже собственный Gemini 3 Pro Preview всего 31.1%.

Огромное улучшение.

Не только рассуждения

Амбиции Deep Think явно не ограничиваются рассуждениями.

不止推理

В тесте Humanity's Last Exam, который называют «последним экзаменом человечества», Deep Think набрал 48.4%. Этот тест охватывает самые сложные вопросы в области математики, науки и инженерии. Claude Opus 4.6 набрал 40.0%, GPT-5.2 - 34.5%.

В программировании тоже очень круто:

На Codeforces Deep Think достиг Elo 3455, в то время как Gemini 3 Pro Preview - 2512, Claude Opus 4.6 - 2352.

Codeforces

Кроме того, в эталоне MMMU-Pro для мультимодального понимания и рассуждений Deep Think также лидирует с 81.5%, хотя здесь разница между разными моделями не так велика: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Помимо результатов тестов, Deep Think также получил результаты уровня золотой медали на письменной части физической и химической олимпиады 2025 года.

Решение научных проблем

Google DeepMind на этот раз особо подчеркнула, что обновленный Deep Think больше не просто машина для решения задач, а предназначен для решения реальных научных и инженерных проблем.

科学问题

Они продемонстрировали пример из Wang Lab Университета Дьюка: исследователи используют Deep Think для разработки новых полупроводниковых материалов, оптимизируя процесс выращивания сложных кристаллов, которые являются кандидатами в высокотемпературные полупроводники.

Duke案例

机械工程

А исследователи в области машиностроения используют его для итерации физических прототипов, позволяя итерации оборудования достигать скорости итерации программного обеспечения, что означает более быстрые циклы улучшения в таких областях, как вспомогательное оборудование.

Как использовать

Обновленный режим Deep Think теперь начал распространяться в приложении Gemini среди подписчиков Google AI Ultra.

如何使用

Для исследователей и разработчиков Google открыла программу раннего доступа Vertex AI, которую можно использовать через API.

Vertex AI 早期访问:https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修改指南:如何获得闪光传说级宠物

Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровеньTechnology

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень Мне всегда нравилась основная идея Obsidian: п...

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого годаTechnology

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прош...

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собойHealth

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой Новый...

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесьHealth

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь Март уже почти прошел, как у вас...

📝
Technology

AI Browser 24小时稳定运行指南

AI Browser 24小时稳定运行指南 Этот учебник описывает, как создать стабильную, долгосрочную среду для AI браузера. Подходит для A...