Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%

Току-що, Google DeepMind обновиха специализирания режим за разсъждения на Gemini 3, Deep Think, и резултатите директно оглавиха класациите.

Deep Think

Трябва да се знае, че ARC-AGI-2 е понастоящем признат за водещ бенчмарк за тестване на способностите за AI разсъждения, и преди това никой модел не е успявал да постигне особено добри резултати на него.

Сравнение на бенчмаркове

А обновеният Deep Think постигна 84.6%, за сравнение: Claude Opus 4.6 е 68.8%, GPT-5.2 е 52.9%, дори собственият Gemini 3 Pro Preview е само 31.1%.

Огромно подобрение.

Не само разсъждения

Амбициите на Deep Think очевидно не се ограничават само до разсъждения.

Не само разсъждения

На бенчмарка Humanity's Last Exam, който е известен като „Последният изпит на човечеството“, Deep Think постигна 48.4%. Този тест обхваща най-трудните въпроси в областта на математиката, науката и инженерството. Claude Opus 4.6 получи 40.0%, а GPT-5.2 – 34.5%.

В програмирането също е много силен:

В Codeforces Deep Think достигна Elo 3455, докато Gemini 3 Pro Preview е 2512, а Claude Opus 4.6 е 2352.

Codeforces

Освен това, на бенчмарка MMMU-Pro за мултимодално разбиране и разсъждения, Deep Think също води с 81.5%, но тук разликите между отделните играчи не са толкова големи: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Освен резултатите, Deep Think също така постигна резултат на ниво златен медал в писмената част на физическия и химическия олимпийски конкурс през 2025 г.

За решаване на научни проблеми

Google DeepMind този път специално подчертаха, че обновеният Deep Think вече не е просто машина за решаване на проблеми, а е предназначен да решава научни и инженерни проблеми от реалния свят.

Научни проблеми

Те представиха случай от Wang Lab на университета Duke: изследователите използват Deep Think за проектиране на нови полупроводникови материали, оптимизиране на процеса на растеж на сложни кристали, които са кандидати за високотемпературни полупроводници.

Duke案例

Машинно инженерство

Също така, изследователи в областта на машинното инженерство го използват за итерация на физически прототипи, позволявайки на хардуерната итерация да достигне скоростта на софтуерната итерация, което означава по-бързи цикли на подобрение в области като помощни устройства.

Как да използвате

Обновеният режим Deep Think вече започна да се разпространява в Gemini App към потребителите, абонирани за Google AI Ultra.

Как да използвате

За изследователи и разработчици, Google отвори програма за ранен достъп до Vertex AI, която може да се използва чрез API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq (Vertex AI ранен достъп: https://goo.gle/4rMHUlq)

Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%

Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%

Не само разсъждения

За решаване на научни проблеми

Как да използвате

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

AI Browser 24小时稳定运行指南