Google uppgraderar i tysthet Deep Think, ARC-AGI-2 direkt upp till 84.6%

Nyligen uppgraderade Google DeepMind Gemini 3:s dedikerade inferensläge Deep Think, och resultaten krossade alla rekord.

Deep Think

Man ska veta att ARC-AGI-2 är det för närvarande erkända ledande riktmärket för att testa AI:s inferensförmåga, och tidigare har ingen modell fått särskilt bra resultat på detta.

基准对比

Och den uppgraderade Deep Think uppnådde 84.6%, jämfört med: Claude Opus 4.6 är 68.8%, GPT-5.2 är 52.9%, och till och med deras egen Gemini 3 Pro Preview är bara 31.1%.

Enorm förbättring.

Inte bara inferens

Deep Thinks ambitioner sträcker sig uppenbarligen längre än bara inferens.

不止推理

På Humanity's Last Exam, som sägs vara "mänsklighetens sista examen", fick Deep Think 48.4%. Detta test täcker de svåraste problemen inom matematik, vetenskap och teknik. Claude Opus 4.6 fick 40.0% och GPT-5.2 fick 34.5%.

Programmeringsmässigt är den också väldigt stark:

På Codeforces uppnådde Deep Think Elo 3455, medan Gemini 3 Pro Preview är 2512 och Claude Opus 4.6 är 2352.

Codeforces

Dessutom, på MMMU-Pro-riktmärket för multimodal förståelse och inferens, leder Deep Think också med 81.5%, men här är skillnaderna mellan de olika aktörerna inte så stora: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Förutom resultaten fick Deep Think också resultat på guldmedaljnivå i den skriftliga delen av fysik- och kemiolympiaden 2025.

För att lösa vetenskapliga problem

Google DeepMind betonade särskilt denna gång att den uppgraderade Deep Think inte längre bara är en problemlösningsmaskin, utan ska lösa verkliga vetenskapliga och tekniska problem.

科学问题

De visade ett exempel från Duke University Wang Lab: Forskare använder Deep Think för att designa nya halvledarmaterial och optimera tillväxtprocessen för komplexa kristaller, som är kandidatmaterial för högtemperaturhalvledare.

Duke案例

机械工程

Det finns också forskare inom maskinteknik som använder det för att iterera fysiska prototyper, vilket gör att hårdvaruiterationen når samma hastighet som mjukvaruiterationen, vilket innebär snabbare förbättringscykler inom områden som hjälpmedel.

Hur man använder det

Det uppgraderade Deep Think-läget har nu börjat rullas ut till Google AI Ultra-prenumeranter i Gemini-appen.

如何使用

För forskare och utvecklare har Google öppnat ett Vertex AI-program för tidig åtkomst, som kan användas via API.

Vertex AI tidig åtkomst: https://goo.gle/4rMHUlq

Google uppgraderar i tysthet Deep Think, ARC-AGI-2 direkt upp till 84.6%

Google uppgraderar i tysthet Deep Think, ARC-AGI-2 direkt upp till 84.6%

Inte bara inferens

För att lösa vetenskapliga problem

Hur man använder det

You Might Also Like

Claude Code Buddy ändringsguide: Hur man får glänsande legendariska husdjur

Obsidian har lanserat Defuddle, som tar Obsidian Web Clipper till en ny höjd

OpenAI plötsligt tillkännager "tre-i-ett": webbläsare + programmering + ChatGPT sammanslagning, internt erkännande av felaktig väg det senaste året

2026, sluta pressa dig själv till 'självdisciplin'! Gör dessa 8 små saker, hälsan kommer naturligt

De mammor som kämpar för att gå ner i vikt men inte lyckas, faller definitivt här

AI Browser 24-timmars stabil driftguide