Google klusībā atjaunināja Deep Think, ARC-AGI-2 tieši sasniedza 84.6%

2/14/2026
2 min read

Google klusībā atjaunināja Deep Think, ARC-AGI-2 tieši sasniedza 84.6%

Pavisam nesen Google DeepMind atjaunināja Gemini 3 speciālo spriešanas režīmu Deep Think, rezultāti tieši iznīcināja visus līderu sarakstus.

Deep Think

Jāņem vērā, ka ARC-AGI-2 šobrīd tiek atzīts par vadošo AI spriešanas spēju testēšanas etalonu, un iepriekš neviens modelis nav spējis iegūt īpaši labus rezultātus šajā jomā.

基准对比

Atjauninātais Deep Think ieguva 84.6%, salīdzinājumam: Claude Opus 4.6 ir 68.8%, GPT-5.2 ir 52.9%, un pat pašu Gemini 3 Pro Preview ir tikai 31.1%.

Milzīgs uzlabojums.

Ne tikai spriešana

Deep Think ambīcijas acīmredzot neaprobežojas tikai ar spriešanu.

不止推理

Humanity's Last Exam etalonā, kas tiek dēvēts par "cilvēces pēdējo eksāmenu", Deep Think ieguva 48.4%, šis tests aptver vissarežģītākos jautājumus matemātikas, zinātnes un inženierzinātņu jomās. Claude Opus 4.6 ieguva 40.0%, GPT-5.2 ir 34.5%.

Arī programmēšanas jomā tas ir ļoti spēcīgs:

Codeforces platformā Deep Think sasniedza Elo 3455, savukārt Gemini 3 Pro Preview ir 2512, Claude Opus 4.6 ir 2352.

Codeforces

Turklāt Deep Think arī ieņem vadošo pozīciju ar 81.5% daudzmodālu izpratnes un spriešanas MMMU-Pro etalonā, taču šeit atšķirības starp dažādiem uzņēmumiem nav tik lielas: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Papildus rezultātiem Deep Think ieguva arī zelta medaļas līmeņa rezultātu 2025. gada fizikas un ķīmijas olimpiādes rakstiskajā daļā.

Lai atrisinātu zinātniskas problēmas

Google DeepMind šoreiz īpaši uzsvēra, ka atjauninātais Deep Think vairs nav tikai problēmu risināšanas mašīna, bet gan paredzēts reālu zinātnes un inženierzinātņu problēmu risināšanai.

科学问题

Viņi demonstrēja Duke universitātes Wang Lab gadījumu: pētnieki izmanto Deep Think, lai izstrādātu jaunus pusvadītāju materiālus, optimizējot sarežģītu kristālu augšanas procesu, un šie kristāli ir augstas temperatūras pusvadītāju kandidātmateriāli.

Duke案例

机械工程

Arī mašīnbūves jomas pētnieki to izmanto, lai atkārtotu fiziskos prototipus, padarot aparatūras iterāciju tikpat ātru kā programmatūras iterāciju, kas palīgaprīkojuma un citās jomās nozīmē ātrāku uzlabojumu ciklu.

Kā lietot

Atjauninātais Deep Think režīms tagad ir sācis parādīties Gemini lietotnē Google AI Ultra abonementu lietotājiem.

如何使用

Zinātniekiem un izstrādātājiem Google ir atvērusi Vertex AI agrīnas piekļuves programmu, kuru var izmantot, izmantojot API.

Vertex AI agrīna piekļuve: https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like