A Google csendben frissítette a Deep Think-et, az ARC-AGI-2 egyből 84,6%-ra ugrott
A Google csendben frissítette a Deep Think-et, az ARC-AGI-2 egyből 84,6%-ra ugrott
A Google DeepMind most frissítette a Gemini 3 dedikált következtetési módját, a Deep Think-et, és a pontszámok egyből az élre ugrottak.

Tudni kell, hogy az ARC-AGI-2 jelenleg elismerten az AI következtetési képességének tesztelésére szolgáló élvonalbeli benchmark, korábban egyetlen modell sem tudott ezen különösen jó pontszámot elérni.

A frissített Deep Think 84,6%-ot ért el, összehasonlításképpen: a Claude Opus 4.6 68,8%, a GPT-5.2 52,9%, és még a saját Gemini 3 Pro Preview is csak 31,1%.
Óriási javulás.
Nem csak következtetés
A Deep Think ambíciói nyilvánvalóan túlmutatnak a következtetésen.

A Humanity's Last Exam nevű benchmarkon, amelyet „az emberiség utolsó vizsgájának” neveznek, a Deep Think 48,4%-ot ért el. Ez a teszt a matematika, a tudomány és a mérnöki tudományok legnehezebb kérdéseit fedi le. A Claude Opus 4.6 40,0%-ot, a GPT-5.2 pedig 34,5%-ot ért el.
A programozás terén is nagyon erős:
A Codeforces-en a Deep Think elérte az Elo 3455-öt, míg a Gemini 3 Pro Preview 2512, a Claude Opus 4.6 pedig 2352.

Emellett a multimódusú megértés és következtetés MMMU-Pro benchmarkján is a Deep Think vezet 81,5%-kal, bár itt a különbségek nem olyan nagyok: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

A pontszámokon kívül a Deep Think a 2025-ös fizikai és kémiai olimpia írásbeli részén is aranyérem szintű eredményt ért el.
Tudományos problémákat akar megoldani
A Google DeepMind ezúttal külön hangsúlyozta, hogy a frissített Deep Think már nem csak egy feladatmegoldó gép, hanem valós tudományos és mérnöki problémákat akar megoldani.

Bemutatták a Duke Egyetem Wang Lab esettanulmányát: a kutatók a Deep Think-et használták új típusú félvezető anyagok tervezésére, optimalizálva a komplex kristályok növekedési folyamatát, amelyek magas hőmérsékletű félvezetők jelöltjei.


Emellett a gépészmérnöki terület kutatói is használták fizikai prototípusok iterálására, lehetővé téve, hogy a hardver iterációja elérje a szoftver iterációjának sebességét, ami a segédeszközök és más területeken gyorsabb fejlesztési ciklusokat jelent.
Hogyan használható
A frissített Deep Think mód már elérhető a Gemini App-ban a Google AI Ultra előfizetők számára.

A kutatók és fejlesztők számára a Google megnyitotta a Vertex AI korai hozzáférési programját, amely API-n keresztül használható.
Vertex AI korai hozzáférés: https://goo.gle/4rMHUlq





