Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%

2/14/2026
3 min read

Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%

Току-що, Google DeepMind обновиха специализирания режим за разсъждения на Gemini 3, Deep Think, и резултатите директно оглавиха класациите.

Deep Think

Трябва да се знае, че ARC-AGI-2 е понастоящем признат за водещ бенчмарк за тестване на способностите за AI разсъждения, и преди това никой модел не е успявал да постигне особено добри резултати на него.

Сравнение на бенчмаркове

А обновеният Deep Think постигна 84.6%, за сравнение: Claude Opus 4.6 е 68.8%, GPT-5.2 е 52.9%, дори собственият Gemini 3 Pro Preview е само 31.1%.

Огромно подобрение.

Не само разсъждения

Амбициите на Deep Think очевидно не се ограничават само до разсъждения.

Не само разсъждения

На бенчмарка Humanity's Last Exam, който е известен като „Последният изпит на човечеството“, Deep Think постигна 48.4%. Този тест обхваща най-трудните въпроси в областта на математиката, науката и инженерството. Claude Opus 4.6 получи 40.0%, а GPT-5.2 – 34.5%.

В програмирането също е много силен:

В Codeforces Deep Think достигна Elo 3455, докато Gemini 3 Pro Preview е 2512, а Claude Opus 4.6 е 2352.

Codeforces

Освен това, на бенчмарка MMMU-Pro за мултимодално разбиране и разсъждения, Deep Think също води с 81.5%, но тук разликите между отделните играчи не са толкова големи: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Освен резултатите, Deep Think също така постигна резултат на ниво златен медал в писмената част на физическия и химическия олимпийски конкурс през 2025 г.

За решаване на научни проблеми

Google DeepMind този път специално подчертаха, че обновеният Deep Think вече не е просто машина за решаване на проблеми, а е предназначен да решава научни и инженерни проблеми от реалния свят.

Научни проблеми

Те представиха случай от Wang Lab на университета Duke: изследователите използват Deep Think за проектиране на нови полупроводникови материали, оптимизиране на процеса на растеж на сложни кристали, които са кандидати за високотемпературни полупроводници.

Duke案例

Машинно инженерство

Също така, изследователи в областта на машинното инженерство го използват за итерация на физически прототипи, позволявайки на хардуерната итерация да достигне скоростта на софтуерната итерация, което означава по-бързи цикли на подобрение в области като помощни устройства.

Как да използвате

Обновеният режим Deep Think вече започна да се разпространява в Gemini App към потребителите, абонирани за Google AI Ultra.

Как да използвате

За изследователи и разработчици, Google отвори програма за ранен достъп до Vertex AI, която може да се използва чрез API.

Vertex AI 早期访问:https://goo.gle/4rMHUlq (Vertex AI ранен достъп: https://goo.gle/4rMHUlq)

Published in Technology

You Might Also Like

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктураTechnology

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктура

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктура Въведение С ус...

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезнеTechnology

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезне

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезне ...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 С развитието на дълбокото обучение в различни области, все повече учебни ресурси и инструменти се ...

2026年 Top 10 AI 代理:核心卖点解析Technology

2026年 Top 10 AI 代理:核心卖点解析

2026年 Top 10 AI 代理:核心卖点解析 引言 С бързото развитие на изкуствения интелект, AI агенти (AI Agents) станаха гореща тема в тех...

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 В днешния ден, когато технологиите напредват с бързи темпове, изкуственият интелект (AI...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 В бързо развиващата се област на облачните изчисления, Amazon Web Services (AWS) винаги е била л...