Google opgraderede i stilhed Deep Think, ARC-AGI-2 rammer direkte 84,6%
Google opgraderede i stilhed Deep Think, ARC-AGI-2 rammer direkte 84,6%
Lige nu har Google DeepMind opgraderet Gemini 3's dedikerede inferens-tilstand Deep Think, og scorerne smadrer direkte alle rekorder.

Det skal bemærkes, at ARC-AGI-2 i øjeblikket er anerkendt som den førende benchmark for test af AI-inferenskapacitet, og intet model har tidligere opnået særligt gode resultater på denne.

Og den opgraderede Deep Think opnåede 84,6%, sammenlignet med: Claude Opus 4.6 er 68,8%, GPT-5.2 er 52,9%, og selv deres egen Gemini 3 Pro Preview er kun 31,1%.
Enorm forbedring.
Ikke kun inferens
Deep Thinks ambitioner er tydeligvis ikke begrænset til inferens.

På Humanity's Last Exam, som kaldes "menneskehedens sidste eksamen", opnåede Deep Think 48,4%, denne test dækker de sværeste problemer inden for matematik, videnskab og ingeniørvidenskab. Claude Opus 4.6 scorede 40,0%, og GPT-5.2 er 34,5%.
Programmeringsmæssigt er den også vild:
På Codeforces nåede Deep Think Elo 3455, mens Gemini 3 Pro Preview er 2512, og Claude Opus 4.6 er 2352.

Derudover fører Deep Think også an med 81,5% på MMMU-Pro-benchmarken for multimodal forståelse og inferens, men her er forskellen mellem de forskellige virksomheder ikke så stor: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

Udover scoringer opnåede Deep Think også resultater på guldmedaljeniveau i den skriftlige del af fysik- og kemiolympiaden i 2025.
Vil løse videnskabelige problemer
Google DeepMind understregede denne gang, at den opgraderede Deep Think ikke længere kun er en problemløsningsmaskine, men skal løse virkelige videnskabelige og tekniske problemer.

De viste Duke University Wang Labs case: Forskere bruger Deep Think til at designe nye halvledermaterialer og optimere vækstprocessen for komplekse krystaller, som er kandidatmaterialer til højtemperatur-halvledere.


Der er også forskere inden for maskinteknik, der bruger det til at iterere fysiske prototyper, hvilket gør hardware-iteration lige så hurtig som software-iteration, hvilket betyder hurtigere forbedringscyklusser inden for områder som hjælpeudstyr.
Hvordan man bruger det
Den opgraderede Deep Think-tilstand er nu begyndt at blive skubbet ud til Google AI Ultra-abonnenter i Gemini-appen.

For forskere og udviklere har Google åbnet Vertex AI early access program, som kan bruges via API.
Vertex AI early access: https://goo.gle/4rMHUlq





