Google klusībā atjaunināja Deep Think, ARC-AGI-2 tieši sasniedza 84.6%

Pavisam nesen Google DeepMind atjaunināja Gemini 3 speciālo spriešanas režīmu Deep Think, rezultāti tieši iznīcināja visus līderu sarakstus.

Deep Think

Jāņem vērā, ka ARC-AGI-2 šobrīd tiek atzīts par vadošo AI spriešanas spēju testēšanas etalonu, un iepriekš neviens modelis nav spējis iegūt īpaši labus rezultātus šajā jomā.

基准对比

Atjauninātais Deep Think ieguva 84.6%, salīdzinājumam: Claude Opus 4.6 ir 68.8%, GPT-5.2 ir 52.9%, un pat pašu Gemini 3 Pro Preview ir tikai 31.1%.

Milzīgs uzlabojums.

Ne tikai spriešana

Deep Think ambīcijas acīmredzot neaprobežojas tikai ar spriešanu.

不止推理

Humanity's Last Exam etalonā, kas tiek dēvēts par "cilvēces pēdējo eksāmenu", Deep Think ieguva 48.4%, šis tests aptver vissarežģītākos jautājumus matemātikas, zinātnes un inženierzinātņu jomās. Claude Opus 4.6 ieguva 40.0%, GPT-5.2 ir 34.5%.

Arī programmēšanas jomā tas ir ļoti spēcīgs:

Codeforces platformā Deep Think sasniedza Elo 3455, savukārt Gemini 3 Pro Preview ir 2512, Claude Opus 4.6 ir 2352.

Codeforces

Turklāt Deep Think arī ieņem vadošo pozīciju ar 81.5% daudzmodālu izpratnes un spriešanas MMMU-Pro etalonā, taču šeit atšķirības starp dažādiem uzņēmumiem nav tik lielas: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Papildus rezultātiem Deep Think ieguva arī zelta medaļas līmeņa rezultātu 2025. gada fizikas un ķīmijas olimpiādes rakstiskajā daļā.

Lai atrisinātu zinātniskas problēmas

Google DeepMind šoreiz īpaši uzsvēra, ka atjauninātais Deep Think vairs nav tikai problēmu risināšanas mašīna, bet gan paredzēts reālu zinātnes un inženierzinātņu problēmu risināšanai.

科学问题

Viņi demonstrēja Duke universitātes Wang Lab gadījumu: pētnieki izmanto Deep Think, lai izstrādātu jaunus pusvadītāju materiālus, optimizējot sarežģītu kristālu augšanas procesu, un šie kristāli ir augstas temperatūras pusvadītāju kandidātmateriāli.

Duke案例

机械工程

Arī mašīnbūves jomas pētnieki to izmanto, lai atkārtotu fiziskos prototipus, padarot aparatūras iterāciju tikpat ātru kā programmatūras iterāciju, kas palīgaprīkojuma un citās jomās nozīmē ātrāku uzlabojumu ciklu.

Kā lietot

Atjauninātais Deep Think režīms tagad ir sācis parādīties Gemini lietotnē Google AI Ultra abonementu lietotājiem.

如何使用

Zinātniekiem un izstrādātājiem Google ir atvērusi Vertex AI agrīnas piekļuves programmu, kuru var izmantot, izmantojot API.

Vertex AI agrīna piekļuve: https://goo.gle/4rMHUlq

Google klusībā atjaunināja Deep Think, ARC-AGI-2 tieši sasniedza 84.6%

Google klusībā atjaunināja Deep Think, ARC-AGI-2 tieši sasniedza 84.6%

Ne tikai spriešana

Lai atrisinātu zinātniskas problēmas

Kā lietot

You Might Also Like

Claude Code Buddy modificēšanas ceļvedis: kā iegūt spīdīgu leģendāro mājdzīvnieku

Obsidian ir izlaidusi Defuddle, pacelot Obsidian Web Clipper uz jauniem augstumiem

OpenAI pēkšņi paziņo par "trīs vienā": pārlūks + programmēšana + ChatGPT apvienošana, iekšēji atzīst, ka pagājušajā gadā tika pieļautas kļūdas

2026, vairs neuzspied sevi "pašdisciplīnai"! Veic šos 8 sīkumus, veselība nāks dabiski

Māmiņas, kas cenšas zaudēt svaru, bet nesasniedz rezultātus, noteikti ir šeit

AI Pārlūka 24 stundu stabilas darbības ceļvedis