Google тивко го надгради Deep Think, ARC-AGI-2 директно до 84.6%
Google тивко го надгради Deep Think, ARC-AGI-2 директно до 84.6%
Само што, Google DeepMind го надгради специјалниот режим за заклучување на Gemini 3, Deep Think, и директно ги собори сите рекорди.
Треба да се знае дека ARC-AGI-2 е моментално признат како водечки стандард за тестирање на способностите за заклучување на вештачката интелигенција, и претходно ниту еден модел не успеа да постигне особено добри резултати на него.
А надградениот Deep Think постигна 84.6%, споредено со: Claude Opus 4.6 е 68.8%, GPT-5.2 е 52.9%, па дури и сопствениот Gemini 3 Pro Preview е само 31.1%.
Огромен напредок.
Не само заклучување
Амбициите на Deep Think очигледно не се ограничени само на заклучување.
На Humanity's Last Exam, кој се нарекува „последниот испит на човештвото“, Deep Think постигна 48.4%, овој тест ги покрива најтешките проблеми во математиката, науката и инженерството. Claude Opus 4.6 постигна 40.0%, а GPT-5.2 е 34.5%.
Програмирањето е исто така многу силно:
На Codeforces, Deep Think достигна Elo 3455, додека Gemini 3 Pro Preview е 2512, а Claude Opus 4.6 е 2352.
Исто така, на MMMU-Pro стандардот за мултимодално разбирање и заклучување, Deep Think исто така води со 81.5%, но тука разликите меѓу компаниите не се толку големи: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.
Покрај резултатите, Deep Think исто така постигна резултат на ниво на златен медал на писмениот дел од Олимпијадата по физика и хемија во 2025 година.
Да се решат научни проблеми
Google DeepMind овој пат посебно нагласи дека надградениот Deep Think повеќе не е само машина за решавање проблеми, туку треба да решава научни и инженерски проблеми од реалниот свет.
Тие го покажаа случајот на Wang Lab од Универзитетот Duke: истражувачите користат Deep Think за да дизајнираат нови полупроводнички материјали и да го оптимизираат процесот на раст на сложени кристали, кои се кандидатски материјали за полупроводници со висока температура.
Исто така, истражувачите во областа на машинското инженерство го користат за да ги повторуваат физичките прототипови, овозможувајќи хардверската итерација да ја достигне брзината на софтверската итерација, што значи побрз циклус на подобрување во области како што се помошните уреди.
Како да се користи
Надградениот режим Deep Think сега започна да се промовира во апликацијата Gemini на корисниците на претплата на Google AI Ultra.
За истражувачите и програмерите, Google отвори Програма за ран пристап до Vertex AI, која може да се користи преку API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq

