Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%

2/14/2026
3 min read

Google тихомълком обнови Deep Think, ARC-AGI-2 директно достигна 84.6%

Току-що, Google DeepMind обновиха специализирания режим за разсъждения на Gemini 3, Deep Think, и резултатите директно оглавиха класациите.

Deep Think

Трябва да се знае, че ARC-AGI-2 е понастоящем признат за водещ бенчмарк за тестване на способностите за AI разсъждения, и преди това никой модел не е успявал да постигне особено добри резултати на него.

Сравнение на бенчмаркове

А обновеният Deep Think постигна 84.6%, за сравнение: Claude Opus 4.6 е 68.8%, GPT-5.2 е 52.9%, дори собственият Gemini 3 Pro Preview е само 31.1%.

Огромно подобрение.

Не само разсъждения

Амбициите на Deep Think очевидно не се ограничават само до разсъждения.

Не само разсъждения

На бенчмарка Humanity's Last Exam, който е известен като „Последният изпит на човечеството“, Deep Think постигна 48.4%. Този тест обхваща най-трудните въпроси в областта на математиката, науката и инженерството. Claude Opus 4.6 получи 40.0%, а GPT-5.2 – 34.5%.

В програмирането също е много силен:

В Codeforces Deep Think достигна Elo 3455, докато Gemini 3 Pro Preview е 2512, а Claude Opus 4.6 е 2352.

Codeforces

Освен това, на бенчмарка MMMU-Pro за мултимодално разбиране и разсъждения, Deep Think също води с 81.5%, но тук разликите между отделните играчи не са толкова големи: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Освен резултатите, Deep Think също така постигна резултат на ниво златен медал в писмената част на физическия и химическия олимпийски конкурс през 2025 г.

За решаване на научни проблеми

Google DeepMind този път специално подчертаха, че обновеният Deep Think вече не е просто машина за решаване на проблеми, а е предназначен да решава научни и инженерни проблеми от реалния свят.

Научни проблеми

Те представиха случай от Wang Lab на университета Duke: изследователите използват Deep Think за проектиране на нови полупроводникови материали, оптимизиране на процеса на растеж на сложни кристали, които са кандидати за високотемпературни полупроводници.

Duke案例

Машинно инженерство

Също така, изследователи в областта на машинното инженерство го използват за итерация на физически прототипи, позволявайки на хардуерната итерация да достигне скоростта на софтуерната итерация, което означава по-бързи цикли на подобрение в области като помощни устройства.

Как да използвате

Обновеният режим Deep Think вече започна да се разпространява в Gemini App към потребителите, абонирани за Google AI Ultra.

Как да използвате

За изследователи и разработчици, Google отвори програма за ранен достъп до Vertex AI, която може да се използва чрез API.

Vertex AI 早期访问:https://goo.gle/4rMHUlq (Vertex AI ранен достъп: https://goo.gle/4rMHUlq)

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修改指南:如何获得闪光传说级宠物

Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново нивоTechnology

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво Винаги съм харесвал основната концепция на Obsid...

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната годинаTechnology

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен ...

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естественоHealth

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено Нова година...

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тукHealth

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук Март вече е наполовина, как върви тв...

📝
Technology

AI Browser 24小时稳定运行指南

AI Browser 24小时 стабилен режим на работа Този урок представя как да настроите стабилна, дългосрочна среда за работа с AI...