Google uppgraderar i tysthet Deep Think, ARC-AGI-2 direkt upp till 84.6%
Google uppgraderar i tysthet Deep Think, ARC-AGI-2 direkt upp till 84.6%
Nyligen uppgraderade Google DeepMind Gemini 3:s dedikerade inferensläge Deep Think, och resultaten krossade alla rekord.

Man ska veta att ARC-AGI-2 är det för närvarande erkända ledande riktmärket för att testa AI:s inferensförmåga, och tidigare har ingen modell fått särskilt bra resultat på detta.

Och den uppgraderade Deep Think uppnådde 84.6%, jämfört med: Claude Opus 4.6 är 68.8%, GPT-5.2 är 52.9%, och till och med deras egen Gemini 3 Pro Preview är bara 31.1%.
Enorm förbättring.
Inte bara inferens
Deep Thinks ambitioner sträcker sig uppenbarligen längre än bara inferens.

På Humanity's Last Exam, som sägs vara "mänsklighetens sista examen", fick Deep Think 48.4%. Detta test täcker de svåraste problemen inom matematik, vetenskap och teknik. Claude Opus 4.6 fick 40.0% och GPT-5.2 fick 34.5%.
Programmeringsmässigt är den också väldigt stark:
På Codeforces uppnådde Deep Think Elo 3455, medan Gemini 3 Pro Preview är 2512 och Claude Opus 4.6 är 2352.

Dessutom, på MMMU-Pro-riktmärket för multimodal förståelse och inferens, leder Deep Think också med 81.5%, men här är skillnaderna mellan de olika aktörerna inte så stora: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

Förutom resultaten fick Deep Think också resultat på guldmedaljnivå i den skriftliga delen av fysik- och kemiolympiaden 2025.
För att lösa vetenskapliga problem
Google DeepMind betonade särskilt denna gång att den uppgraderade Deep Think inte längre bara är en problemlösningsmaskin, utan ska lösa verkliga vetenskapliga och tekniska problem.

De visade ett exempel från Duke University Wang Lab: Forskare använder Deep Think för att designa nya halvledarmaterial och optimera tillväxtprocessen för komplexa kristaller, som är kandidatmaterial för högtemperaturhalvledare.


Det finns också forskare inom maskinteknik som använder det för att iterera fysiska prototyper, vilket gör att hårdvaruiterationen når samma hastighet som mjukvaruiterationen, vilket innebär snabbare förbättringscykler inom områden som hjälpmedel.
Hur man använder det
Det uppgraderade Deep Think-läget har nu börjat rullas ut till Google AI Ultra-prenumeranter i Gemini-appen.

För forskare och utvecklare har Google öppnat ett Vertex AI-program för tidig åtkomst, som kan användas via API.
Vertex AI tidig åtkomst: https://goo.gle/4rMHUlq





