Google päivitti hiljaa Deep Thinkin, ARC-AGI-2 suoraan 84,6 %

Juuri äsken Google DeepMind päivitti Gemini 3:n erikoistetun päättelytilan Deep Thinkin, ja tulokset murskaavat suoraan kaikki muut.

Deep Think

On hyvä muistaa, että ARC-AGI-2 on tällä hetkellä yleisesti tunnustettu tekoälyn päättelykyvyn testauksen huippumittari, ja aiemmin mikään malli ei ole saanut siinä erityisen hyviä pisteitä.

基准对比

Päivitetyn Deep Thinkin tulos oli 84,6 %. Vertailun vuoksi: Claude Opus 4.6 on 68,8 %, GPT-5.2 on 52,9 % ja jopa Googlen oma Gemini 3 Pro Preview vain 31,1 %.

Parannus on valtava.

Enemmän kuin vain päättely

Deep Thinkin tavoitteet ovat selvästi enemmän kuin vain päättely.

不止推理

Humanity's Last Exam -nimisessä mittarissa, jota kutsutaan "ihmiskunnan viimeiseksi kokeeksi", Deep Think sai 48,4 %. Tämä testi kattaa matematiikan, tieteen ja insinööritieteen vaikeimmat kysymykset. Claude Opus 4.6 sai 40,0 % ja GPT-5.2 34,5 %.

Ohjelmoinnin saralla se on myös kova:

Codeforcesissa Deep Think saavutti Elo 3455, kun taas Gemini 3 Pro Preview on 2512 ja Claude Opus 4.6 on 2352.

Codeforces

Lisäksi monimuotoisen ymmärryksen ja päättelyn MMMU-Pro-mittarissa Deep Think johtaa 81,5 %:lla, mutta tässä eri toimijoiden väliset erot eivät ole niin suuria: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 % ja Claude Opus 4.6 73,9 %.

MMMU-Pro

Pisteiden lisäksi Deep Think saavutti vuoden 2025 fysiikan ja kemian olympialaisten kirjallisessa osiossa kultamitalitason tuloksen.

Ongelmien ratkaiseminen tieteen saralla

Google DeepMind korosti tällä kertaa erityisesti, että päivitetty Deep Think ei ole enää vain ongelmanratkaisukone, vaan sen on tarkoitus ratkaista todellisia tieteen ja insinööritieteen ongelmia.

科学问题

He esittelivät Duke Universityn Wang Labin tapauksen: tutkijat käyttävät Deep Thinkiä uusien puolijohdemateriaalien suunnitteluun ja monimutkaisten kiteiden kasvun optimointiin. Nämä kiteet ovat korkean lämpötilan puolijohteiden ehdokasmateriaaleja.

Duke案例

机械工程

Myös koneenrakennuksen tutkijat käyttävät sitä fyysisten prototyyppien iterointiin, jolloin laitteistojen iterointi saavuttaa ohjelmistojen iterointinopeuden. Tämä tarkoittaa nopeampia parannusjaksoja esimerkiksi apuvälineiden alalla.

Kuinka käyttää

Päivitetty Deep Think -tila on nyt alettu lähettää Gemini-sovelluksessa Google AI Ultra -tilaajille.

如何使用

Tutkijoille ja kehittäjille Google on avannut Vertex AI:n varhaisen käyttöoikeuden, jota voi käyttää API:n kautta.

Vertex AI:n varhainen käyttöoikeus: https://goo.gle/4rMHUlq

Google päivitti hiljaa Deep Thinkin, ARC-AGI-2 suoraan 84,6 %

Google päivitti hiljaa Deep Thinkin, ARC-AGI-2 suoraan 84,6 %

Enemmän kuin vain päättely

Ongelmien ratkaiseminen tieteen saralla

Kuinka käyttää

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian julkaisi Defuddlen, joka vie Obsidian Web Clipperin uudelle tasolle

OpenAI yllättäen ilmoittaa "kolme yhdessä": selain + ohjelmointi + ChatGPT yhdistyvät, sisäisesti myönnetään, että viime vuosi meni pieleen

2026, älä pakota itseäsi 'itsekuriksi'! Tee nämä 8 pientä asiaa, terveys tulee luonnostaan

Ne äidit, jotka yrittävät laihtua mutta eivät onnistu, kompastuvat varmasti tähän

AI Browser 24小时稳定运行指南