Google je tiho nadgradil Deep Think, ARC-AGI-2 neposredno dosegel 84,6 %

2/14/2026
2 min read

Google je tiho nadgradil Deep Think, ARC-AGI-2 neposredno dosegel 84,6 %

Pravkar je Google DeepMind nadgradil namenski način sklepanja Gemini 3, Deep Think, in rezultati so presegli vse druge.

Deep Think

Treba je vedeti, da je ARC-AGI-2 trenutno priznano merilo za testiranje sposobnosti sklepanja umetne inteligence, in do zdaj noben model ni dosegel posebej dobrih rezultatov na tem področju.

Primerjava meril

Nadgrajeni Deep Think je dosegel 84,6 %, za primerjavo: Claude Opus 4.6 je dosegel 68,8 %, GPT-5.2 52,9 %, celo Gemini 3 Pro Preview pa le 31,1 %.

Ogromna izboljšava.

Ne samo sklepanje

Ambicioznost Deep Thinka očitno presega zgolj sklepanje.

Ne samo sklepanje

Na merilu Humanity's Last Exam, ki naj bi bil »zadnji človeški izpit«, je Deep Think dosegel 48,4 %. Ta test zajema najtežja vprašanja na področju matematike, znanosti in inženirstva. Claude Opus 4.6 je dosegel 40,0 %, GPT-5.2 pa 34,5 %.

Tudi na področju programiranja je zelo močan:

Na Codeforces je Deep Think dosegel Elo 3455, medtem ko je Gemini 3 Pro Preview dosegel 2512, Claude Opus 4.6 pa 2352.

Codeforces

Poleg tega je Deep Think vodilni tudi na merilu MMMU-Pro za večmodalno razumevanje in sklepanje z 81,5 %, vendar tukaj razlike med različnimi ponudniki niso tako velike: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

MMMU-Pro

Poleg rezultatov je Deep Think na pisnem delu fizikalne in kemijske olimpijade leta 2025 dosegel rezultat na ravni zlate medalje.

Reševanje znanstvenih problemov

Google DeepMind je tokrat posebej poudaril, da nadgrajeni Deep Think ni več samo stroj za reševanje problemov, temveč želi reševati resnične znanstvene in inženirske probleme.

Znanstveni problemi

Prikazali so primer laboratorija Wang z univerze Duke: raziskovalci uporabljajo Deep Think za načrtovanje novih polprevodniških materialov in optimizacijo procesa rasti kompleksnih kristalov, ki so kandidati za visokotemperaturne polprevodnike.

Primer Duke

Strojništvo

Raziskovalci na področju strojništva ga uporabljajo tudi za iteracijo fizičnih prototipov, s čimer so dosegli hitrost iteracije strojne opreme, ki je enaka hitrosti iteracije programske opreme, kar pomeni hitrejše cikle izboljšav na področjih, kot so pomožne naprave.

Kako uporabljati

Nadgrajeni način Deep Think se zdaj uvaja v aplikaciji Gemini za uporabnike naročnine Google AI Ultra.

Kako uporabljati

Za raziskovalce in razvijalce je Google odprl program zgodnjega dostopa Vertex AI, ki ga je mogoče uporabljati prek API-ja.

Zgodnji dostop do Vertex AI: https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like