Google tyliai atnaujino Deep Think, ARC-AGI-2 tiesiogiai pasiekė 84,6%
Google tyliai atnaujino Deep Think, ARC-AGI-2 tiesiogiai pasiekė 84,6%
Visai neseniai Google DeepMind atnaujino Gemini 3 skirtą dedukcinį režimą Deep Think, rezultatai tiesiogine prasme užvaldė lyderių lenteles.

Reikia žinoti, kad ARC-AGI-2 šiuo metu yra pripažintas pažangiausiu AI dedukcinių gebėjimų testavimo standartu, anksčiau joks modelis negalėjo pasiekti ypač gerų rezultatų.

O atnaujintas Deep Think pasiekė 84,6%, palyginkime: Claude Opus 4.6 yra 68,8%, GPT-5.2 yra 52,9%, net ir pačių Gemini 3 Pro Preview yra tik 31,1%.
Didelis pagerėjimas.
Ne tik dedukcija
Deep Think ambicijos akivaizdžiai neapsiriboja vien tik dedukcija.

Humanity's Last Exam standarte, kuris vadinamas „paskutiniuoju žmonijos egzaminu“, Deep Think pasiekė 48,4%, šis testas apima sunkiausius matematikos, mokslo ir inžinerijos klausimus. Claude Opus 4.6 gavo 40,0%, GPT-5.2 – 34,5%.
Programavimo srityje taip pat labai stiprus:
Codeforces platformoje Deep Think pasiekė Elo 3455, o Gemini 3 Pro Preview – 2512, Claude Opus 4.6 – 2352.

Be to, daugiarūšio supratimo ir dedukcijos MMMU-Pro standarte Deep Think taip pat pirmauja su 81,5%, tačiau čia skirtumai tarp įvairių kompanijų nėra tokie dideli: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

Be rezultatų, Deep Think taip pat gavo aukso medalio lygio rezultatą 2025 m. fizikos ir chemijos olimpiados rašytinėje dalyje.
Siekiama išspręsti mokslo problemas
Google DeepMind šį kartą ypač pabrėžė, kad atnaujintas Deep Think nebėra tik problemų sprendimo mašina, o siekia išspręsti realaus pasaulio mokslo ir inžinerijos problemas.

Jie parodė Duke universiteto Wang Lab atvejį: mokslininkai naudoja Deep Think naujų puslaidininkių medžiagų projektavimui, optimizuojant sudėtingų kristalų augimo procesą, šie kristalai yra aukštos temperatūros puslaidininkių kandidatai.


Taip pat mechanikos inžinerijos srities tyrėjai jį naudoja fizinių prototipų iteracijai, leidžiant aparatinės įrangos iteracijai pasiekti programinės įrangos iteracijos greitį, o tai reiškia greitesnį tobulinimo ciklą tokiose srityse kaip pagalbiniai įrenginiai.
Kaip naudoti
Atnaujintas Deep Think režimas jau pradėtas diegti Gemini App Google AI Ultra prenumeratoriams.

Mokslininkams ir kūrėjams Google atvėrė Vertex AI ankstyvos prieigos programą, kurią galima naudoti per API.
Vertex AI ankstyva prieiga: https://goo.gle/4rMHUlq





