A Google csendben frissítette a Deep Think-et, az ARC-AGI-2 egyből 84,6%-ra ugrott

A Google DeepMind most frissítette a Gemini 3 dedikált következtetési módját, a Deep Think-et, és a pontszámok egyből az élre ugrottak.

Deep Think

Tudni kell, hogy az ARC-AGI-2 jelenleg elismerten az AI következtetési képességének tesztelésére szolgáló élvonalbeli benchmark, korábban egyetlen modell sem tudott ezen különösen jó pontszámot elérni.

基准对比

A frissített Deep Think 84,6%-ot ért el, összehasonlításképpen: a Claude Opus 4.6 68,8%, a GPT-5.2 52,9%, és még a saját Gemini 3 Pro Preview is csak 31,1%.

Óriási javulás.

Nem csak következtetés

A Deep Think ambíciói nyilvánvalóan túlmutatnak a következtetésen.

不止推理

A Humanity's Last Exam nevű benchmarkon, amelyet „az emberiség utolsó vizsgájának” neveznek, a Deep Think 48,4%-ot ért el. Ez a teszt a matematika, a tudomány és a mérnöki tudományok legnehezebb kérdéseit fedi le. A Claude Opus 4.6 40,0%-ot, a GPT-5.2 pedig 34,5%-ot ért el.

A programozás terén is nagyon erős:

A Codeforces-en a Deep Think elérte az Elo 3455-öt, míg a Gemini 3 Pro Preview 2512, a Claude Opus 4.6 pedig 2352.

Codeforces

Emellett a multimódusú megértés és következtetés MMMU-Pro benchmarkján is a Deep Think vezet 81,5%-kal, bár itt a különbségek nem olyan nagyok: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

A pontszámokon kívül a Deep Think a 2025-ös fizikai és kémiai olimpia írásbeli részén is aranyérem szintű eredményt ért el.

Tudományos problémákat akar megoldani

A Google DeepMind ezúttal külön hangsúlyozta, hogy a frissített Deep Think már nem csak egy feladatmegoldó gép, hanem valós tudományos és mérnöki problémákat akar megoldani.

科学问题

Bemutatták a Duke Egyetem Wang Lab esettanulmányát: a kutatók a Deep Think-et használták új típusú félvezető anyagok tervezésére, optimalizálva a komplex kristályok növekedési folyamatát, amelyek magas hőmérsékletű félvezetők jelöltjei.

Duke案例

机械工程

Emellett a gépészmérnöki terület kutatói is használták fizikai prototípusok iterálására, lehetővé téve, hogy a hardver iterációja elérje a szoftver iterációjának sebességét, ami a segédeszközök és más területeken gyorsabb fejlesztési ciklusokat jelent.

Hogyan használható

A frissített Deep Think mód már elérhető a Gemini App-ban a Google AI Ultra előfizetők számára.

如何使用

A kutatók és fejlesztők számára a Google megnyitotta a Vertex AI korai hozzáférési programját, amely API-n keresztül használható.

Vertex AI korai hozzáférés: https://goo.gle/4rMHUlq

A Google csendben frissítette a Deep Think-et, az ARC-AGI-2 egyből 84,6%-ra ugrott

A Google csendben frissítette a Deep Think-et, az ARC-AGI-2 egyből 84,6%-ra ugrott

Nem csak következtetés

Tudományos problémákat akar megoldani

Hogyan használható

You Might Also Like

Claude Code Buddy módosítási útmutató: Hogyan szerezd meg a fénylő legendás szörnyet

Obsidian bemutatta a Defuddle-t, amely új magasságokba emeli az Obsidian Web Clipper-t

OpenAI hirtelen bejelentette a "három az egyben"-t: böngésző + programozás + ChatGPT egyesítése, a belső körök elismerik, hogy az elmúlt évben rossz irányba haladtak

2026, ne kényszerítsd magad a 'fegyelemre'! Csináld meg ezt a 8 apróságot, és a egészség magától jön

Azok a mamák, akik keményen próbálnak fogyni, de nem sikerül, biztosan itt buktak el

AI Browser 24 órás stabil működési útmutató