Google uuendas vaikselt Deep Think'i, ARC-AGI-2 saavutas kohe 84,6%
Google uuendas vaikselt Deep Think'i, ARC-AGI-2 saavutas kohe 84,6%
Just äsja uuendas Google DeepMind Gemini 3 spetsiaalset järeldusrežiimi Deep Think, tulemused on kohe edetabeli tipus.

Tuleb teada, et ARC-AGI-2 on praegu üldtunnustatud AI järeldusvõime testimise esirinnas olev etalon, varem ei suutnud ükski mudel sellel eriti häid tulemusi saada.

Ja uuendatud Deep Think saavutas 84,6%, võrdluseks: Claude Opus 4.6 on 68,8%, GPT-5.2 on 52,9%, isegi nende enda Gemini 3 Pro Preview on ainult 31,1%.
Suur edasiminek.
Rohkem kui ainult järeldamine
Deep Think'i ambitsioonid on ilmselgelt suuremad kui ainult järeldamine.

Humanity's Last Exam etalonil, mida nimetatakse "inimkonna viimaseks eksamiks", saavutas Deep Think 48,4%, see test hõlmab matemaatika, teaduse ja insenerivaldkonna kõige raskemaid küsimusi. Claude Opus 4.6 sai 40,0% ja GPT-5.2 34,5%.
Programmeerimise osas on see samuti väga hea:
Codeforces'is saavutas Deep Think Elo 3455, samas kui Gemini 3 Pro Preview on 2512 ja Claude Opus 4.6 on 2352.

Lisaks on Deep Think multimodality mõistmise ja järeldamise MMMU-Pro etalonil 81,5% juhtpositsioonil, kuid siin ei ole erinevused nii suured: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

Lisaks tulemustele sai Deep Think 2025. aasta füüsika- ja keemiaolümpiaadi kirjalikus osas kuldmedali tasemel tulemused.
Teadusprobleemide lahendamine
Google DeepMind rõhutas seekord eriti, et uuendatud Deep Think ei ole enam lihtsalt probleemide lahendamise masin, vaid peab lahendama reaalse maailma teadus- ja inseneriprobleeme.

Nad tutvustasid Duke'i ülikooli Wang Lab'i juhtumit: teadlased kasutasid Deep Think'i uute pooljuhtmaterjalide projekteerimiseks, keerukate kristallide kasvamise protsessi optimeerimiseks, need kristallid on kõrge temperatuuriga pooljuhtide kandidaadid.


Samuti kasutavad masinaehituse valdkonna teadlased seda füüsiliste prototüüpide itereerimiseks, võimaldades riistvara iteratsioonil saavutada tarkvara iteratsiooni kiiruse, mis tähendab abiseadmete ja muude valdkondade jaoks kiiremaid täiustustsükleid.
Kuidas kasutada
Uuendatud Deep Think režiimi hakatakse nüüd Gemini App'is Google AI Ultra tellijatele välja saatma.

Teadlastele ja arendajatele on Google avanud Vertex AI varajase juurdepääsu programmi, mida saab kasutada API kaudu.
Vertex AI varajane juurdepääs: https://goo.gle/4rMHUlq





