Google päivitti hiljaa Deep Thinkin, ARC-AGI-2 suoraan 84,6 %
Google päivitti hiljaa Deep Thinkin, ARC-AGI-2 suoraan 84,6 %
Juuri äsken Google DeepMind päivitti Gemini 3:n erikoistetun päättelytilan Deep Thinkin, ja tulokset murskaavat suoraan kaikki muut.

On hyvä muistaa, että ARC-AGI-2 on tällä hetkellä yleisesti tunnustettu tekoälyn päättelykyvyn testauksen huippumittari, ja aiemmin mikään malli ei ole saanut siinä erityisen hyviä pisteitä.

Päivitetyn Deep Thinkin tulos oli 84,6 %. Vertailun vuoksi: Claude Opus 4.6 on 68,8 %, GPT-5.2 on 52,9 % ja jopa Googlen oma Gemini 3 Pro Preview vain 31,1 %.
Parannus on valtava.
Enemmän kuin vain päättely
Deep Thinkin tavoitteet ovat selvästi enemmän kuin vain päättely.

Humanity's Last Exam -nimisessä mittarissa, jota kutsutaan "ihmiskunnan viimeiseksi kokeeksi", Deep Think sai 48,4 %. Tämä testi kattaa matematiikan, tieteen ja insinööritieteen vaikeimmat kysymykset. Claude Opus 4.6 sai 40,0 % ja GPT-5.2 34,5 %.
Ohjelmoinnin saralla se on myös kova:
Codeforcesissa Deep Think saavutti Elo 3455, kun taas Gemini 3 Pro Preview on 2512 ja Claude Opus 4.6 on 2352.

Lisäksi monimuotoisen ymmärryksen ja päättelyn MMMU-Pro-mittarissa Deep Think johtaa 81,5 %:lla, mutta tässä eri toimijoiden väliset erot eivät ole niin suuria: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 % ja Claude Opus 4.6 73,9 %.

Pisteiden lisäksi Deep Think saavutti vuoden 2025 fysiikan ja kemian olympialaisten kirjallisessa osiossa kultamitalitason tuloksen.
Ongelmien ratkaiseminen tieteen saralla
Google DeepMind korosti tällä kertaa erityisesti, että päivitetty Deep Think ei ole enää vain ongelmanratkaisukone, vaan sen on tarkoitus ratkaista todellisia tieteen ja insinööritieteen ongelmia.

He esittelivät Duke Universityn Wang Labin tapauksen: tutkijat käyttävät Deep Thinkiä uusien puolijohdemateriaalien suunnitteluun ja monimutkaisten kiteiden kasvun optimointiin. Nämä kiteet ovat korkean lämpötilan puolijohteiden ehdokasmateriaaleja.


Myös koneenrakennuksen tutkijat käyttävät sitä fyysisten prototyyppien iterointiin, jolloin laitteistojen iterointi saavuttaa ohjelmistojen iterointinopeuden. Tämä tarkoittaa nopeampia parannusjaksoja esimerkiksi apuvälineiden alalla.
Kuinka käyttää
Päivitetty Deep Think -tila on nyt alettu lähettää Gemini-sovelluksessa Google AI Ultra -tilaajille.

Tutkijoille ja kehittäjille Google on avannut Vertex AI:n varhaisen käyttöoikeuden, jota voi käyttää API:n kautta.
Vertex AI:n varhainen käyttöoikeus: https://goo.gle/4rMHUlq





