Google tyliai atnaujino Deep Think, ARC-AGI-2 tiesiogiai pasiekė 84,6%

Visai neseniai Google DeepMind atnaujino Gemini 3 skirtą dedukcinį režimą Deep Think, rezultatai tiesiogine prasme užvaldė lyderių lenteles.

Deep Think

Reikia žinoti, kad ARC-AGI-2 šiuo metu yra pripažintas pažangiausiu AI dedukcinių gebėjimų testavimo standartu, anksčiau joks modelis negalėjo pasiekti ypač gerų rezultatų.

基准对比

O atnaujintas Deep Think pasiekė 84,6%, palyginkime: Claude Opus 4.6 yra 68,8%, GPT-5.2 yra 52,9%, net ir pačių Gemini 3 Pro Preview yra tik 31,1%.

Didelis pagerėjimas.

Ne tik dedukcija

Deep Think ambicijos akivaizdžiai neapsiriboja vien tik dedukcija.

不止推理

Humanity's Last Exam standarte, kuris vadinamas „paskutiniuoju žmonijos egzaminu“, Deep Think pasiekė 48,4%, šis testas apima sunkiausius matematikos, mokslo ir inžinerijos klausimus. Claude Opus 4.6 gavo 40,0%, GPT-5.2 – 34,5%.

Programavimo srityje taip pat labai stiprus:

Codeforces platformoje Deep Think pasiekė Elo 3455, o Gemini 3 Pro Preview – 2512, Claude Opus 4.6 – 2352.

Codeforces

Be to, daugiarūšio supratimo ir dedukcijos MMMU-Pro standarte Deep Think taip pat pirmauja su 81,5%, tačiau čia skirtumai tarp įvairių kompanijų nėra tokie dideli: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Be rezultatų, Deep Think taip pat gavo aukso medalio lygio rezultatą 2025 m. fizikos ir chemijos olimpiados rašytinėje dalyje.

Siekiama išspręsti mokslo problemas

Google DeepMind šį kartą ypač pabrėžė, kad atnaujintas Deep Think nebėra tik problemų sprendimo mašina, o siekia išspręsti realaus pasaulio mokslo ir inžinerijos problemas.

科学问题

Jie parodė Duke universiteto Wang Lab atvejį: mokslininkai naudoja Deep Think naujų puslaidininkių medžiagų projektavimui, optimizuojant sudėtingų kristalų augimo procesą, šie kristalai yra aukštos temperatūros puslaidininkių kandidatai.

Duke案例

机械工程

Taip pat mechanikos inžinerijos srities tyrėjai jį naudoja fizinių prototipų iteracijai, leidžiant aparatinės įrangos iteracijai pasiekti programinės įrangos iteracijos greitį, o tai reiškia greitesnį tobulinimo ciklą tokiose srityse kaip pagalbiniai įrenginiai.

Kaip naudoti

Atnaujintas Deep Think režimas jau pradėtas diegti Gemini App Google AI Ultra prenumeratoriams.

如何使用

Mokslininkams ir kūrėjams Google atvėrė Vertex AI ankstyvos prieigos programą, kurią galima naudoti per API.

Vertex AI ankstyva prieiga: https://goo.gle/4rMHUlq

Google tyliai atnaujino Deep Think, ARC-AGI-2 tiesiogiai pasiekė 84,6%

Google tyliai atnaujino Deep Think, ARC-AGI-2 tiesiogiai pasiekė 84,6%

Ne tik dedukcija

Siekiama išspręsti mokslo problemas

Kaip naudoti

You Might Also Like

Claude Code Buddy modificavimo vadovas: kaip gauti blizgantį legendinį augintinį

Obsidian pristatė Defuddle, pakeldama Obsidian Web Clipper į naujas aukštumas

OpenAI staiga paskelbė "trijų viename": naršyklė + programavimas + ChatGPT sujungimas, viduje pripažinta, kad per pastaruosius metus buvo padaryta klaida

2026, nebe reikės priversti save "savarankiškai"! Pasirūpinkite šiomis 8 mažomis užduotimis, sveikata ateis natūraliai

Motinos, kurios stengiasi numesti svorio, bet nesugeba, tikrai klysta čia

AI Naršyklė 24 valandų stabilaus veikimo vadovas