Google je tiho nadgradil Deep Think, ARC-AGI-2 neposredno dosegel 84,6 %
Google je tiho nadgradil Deep Think, ARC-AGI-2 neposredno dosegel 84,6 %
Pravkar je Google DeepMind nadgradil namenski način sklepanja Gemini 3, Deep Think, in rezultati so presegli vse druge.

Treba je vedeti, da je ARC-AGI-2 trenutno priznano merilo za testiranje sposobnosti sklepanja umetne inteligence, in do zdaj noben model ni dosegel posebej dobrih rezultatov na tem področju.

Nadgrajeni Deep Think je dosegel 84,6 %, za primerjavo: Claude Opus 4.6 je dosegel 68,8 %, GPT-5.2 52,9 %, celo Gemini 3 Pro Preview pa le 31,1 %.
Ogromna izboljšava.
Ne samo sklepanje
Ambicioznost Deep Thinka očitno presega zgolj sklepanje.

Na merilu Humanity's Last Exam, ki naj bi bil »zadnji človeški izpit«, je Deep Think dosegel 48,4 %. Ta test zajema najtežja vprašanja na področju matematike, znanosti in inženirstva. Claude Opus 4.6 je dosegel 40,0 %, GPT-5.2 pa 34,5 %.
Tudi na področju programiranja je zelo močan:
Na Codeforces je Deep Think dosegel Elo 3455, medtem ko je Gemini 3 Pro Preview dosegel 2512, Claude Opus 4.6 pa 2352.

Poleg tega je Deep Think vodilni tudi na merilu MMMU-Pro za večmodalno razumevanje in sklepanje z 81,5 %, vendar tukaj razlike med različnimi ponudniki niso tako velike: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

Poleg rezultatov je Deep Think na pisnem delu fizikalne in kemijske olimpijade leta 2025 dosegel rezultat na ravni zlate medalje.
Reševanje znanstvenih problemov
Google DeepMind je tokrat posebej poudaril, da nadgrajeni Deep Think ni več samo stroj za reševanje problemov, temveč želi reševati resnične znanstvene in inženirske probleme.

Prikazali so primer laboratorija Wang z univerze Duke: raziskovalci uporabljajo Deep Think za načrtovanje novih polprevodniških materialov in optimizacijo procesa rasti kompleksnih kristalov, ki so kandidati za visokotemperaturne polprevodnike.


Raziskovalci na področju strojništva ga uporabljajo tudi za iteracijo fizičnih prototipov, s čimer so dosegli hitrost iteracije strojne opreme, ki je enaka hitrosti iteracije programske opreme, kar pomeni hitrejše cikle izboljšav na področjih, kot so pomožne naprave.
Kako uporabljati
Nadgrajeni način Deep Think se zdaj uvaja v aplikaciji Gemini za uporabnike naročnine Google AI Ultra.

Za raziskovalce in razvijalce je Google odprl program zgodnjega dostopa Vertex AI, ki ga je mogoče uporabljati prek API-ja.
Zgodnji dostop do Vertex AI: https://goo.gle/4rMHUlq





