Google oppgraderte i stillhet Deep Think, ARC-AGI-2 direkte opp til 84,6 %
Google oppgraderte i stillhet Deep Think, ARC-AGI-2 direkte opp til 84,6 %
Nettopp, Google DeepMind har oppgradert Gemini 3s dedikerte resonneringsmodus Deep Think, og scoren knuser listene direkte.

Man må vite at ARC-AGI-2 er det nåværende anerkjente ledende benchmark for testing av AIs resonneringsevne, og tidligere har ingen modeller klart å oppnå spesielt gode resultater på dette.

Og den oppgraderte Deep Think oppnådde 84,6 %, sammenlignet med: Claude Opus 4.6 er 68,8 %, GPT-5.2 er 52,9 %, og selv deres egen Gemini 3 Pro Preview er bare 31,1 %.
Enorm forbedring.
Ikke bare resonnering
Deep Thinks ambisjoner er åpenbart ikke bare resonnering.

På Humanity's Last Exam, som kalles «menneskehetens siste eksamen», oppnådde Deep Think 48,4 %, denne testen dekker de vanskeligste problemene innen matematikk, vitenskap og ingeniørfag. Claude Opus 4.6 fikk 40,0 %, GPT-5.2 er 34,5 %.
Programmeringsmessig er den også veldig sterk:
På Codeforces oppnådde Deep Think Elo 3455, mens Gemini 3 Pro Preview er 2512, Claude Opus 4.6 er 2352.

I tillegg, på MMMU-Pro-benchmarken for multimodal forståelse og resonnering, leder Deep Think også med 81,5 %, men her er forskjellene mellom de forskjellige selskapene ikke så store: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

I tillegg til score, oppnådde Deep Think også resultater på gullmedaljenivå i den skriftlige delen av fysikk- og kjemiolympiaden i 2025.
Skal løse vitenskapelige problemer
Google DeepMind understreket spesielt denne gangen at den oppgraderte Deep Think ikke lenger bare er en problemløsningsmaskin, men skal løse virkelige vitenskapelige og ingeniørmessige problemer.

De viste frem et case fra Wang Lab ved Duke University: Forskere bruker Deep Think til å designe nye halvledermaterialer og optimalisere vekstprosessen for komplekse krystaller, som er kandidatmaterialer for høytemperaturhalvledere.


Det er også forskere innen maskinteknikk som bruker den til å iterere fysiske prototyper, slik at maskinvareiterasjonen oppnår hastigheten til programvareiterasjon, noe som betyr raskere forbedringssykluser innen hjelpemidler og lignende.
Hvordan bruke
Den oppgraderte Deep Think-modusen har nå begynt å bli pushet ut til Google AI Ultra-abonnenter i Gemini-appen.

For forskere og utviklere har Google åpnet et Vertex AI tidlig tilgangsprogram, som kan brukes via API.
Vertex AI tidlig tilgang: https://goo.gle/4rMHUlq





