Google oppgraderte i stillhet Deep Think, ARC-AGI-2 direkte opp til 84,6 %

Nettopp, Google DeepMind har oppgradert Gemini 3s dedikerte resonneringsmodus Deep Think, og scoren knuser listene direkte.

Deep Think

Man må vite at ARC-AGI-2 er det nåværende anerkjente ledende benchmark for testing av AIs resonneringsevne, og tidligere har ingen modeller klart å oppnå spesielt gode resultater på dette.

基准对比

Og den oppgraderte Deep Think oppnådde 84,6 %, sammenlignet med: Claude Opus 4.6 er 68,8 %, GPT-5.2 er 52,9 %, og selv deres egen Gemini 3 Pro Preview er bare 31,1 %.

Enorm forbedring.

Ikke bare resonnering

Deep Thinks ambisjoner er åpenbart ikke bare resonnering.

不止推理

På Humanity's Last Exam, som kalles «menneskehetens siste eksamen», oppnådde Deep Think 48,4 %, denne testen dekker de vanskeligste problemene innen matematikk, vitenskap og ingeniørfag. Claude Opus 4.6 fikk 40,0 %, GPT-5.2 er 34,5 %.

Programmeringsmessig er den også veldig sterk:

På Codeforces oppnådde Deep Think Elo 3455, mens Gemini 3 Pro Preview er 2512, Claude Opus 4.6 er 2352.

Codeforces

I tillegg, på MMMU-Pro-benchmarken for multimodal forståelse og resonnering, leder Deep Think også med 81,5 %, men her er forskjellene mellom de forskjellige selskapene ikke så store: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

MMMU-Pro

I tillegg til score, oppnådde Deep Think også resultater på gullmedaljenivå i den skriftlige delen av fysikk- og kjemiolympiaden i 2025.

Skal løse vitenskapelige problemer

Google DeepMind understreket spesielt denne gangen at den oppgraderte Deep Think ikke lenger bare er en problemløsningsmaskin, men skal løse virkelige vitenskapelige og ingeniørmessige problemer.

科学问题

De viste frem et case fra Wang Lab ved Duke University: Forskere bruker Deep Think til å designe nye halvledermaterialer og optimalisere vekstprosessen for komplekse krystaller, som er kandidatmaterialer for høytemperaturhalvledere.

Duke案例

机械工程

Det er også forskere innen maskinteknikk som bruker den til å iterere fysiske prototyper, slik at maskinvareiterasjonen oppnår hastigheten til programvareiterasjon, noe som betyr raskere forbedringssykluser innen hjelpemidler og lignende.

Hvordan bruke

Den oppgraderte Deep Think-modusen har nå begynt å bli pushet ut til Google AI Ultra-abonnenter i Gemini-appen.

如何使用

For forskere og utviklere har Google åpnet et Vertex AI tidlig tilgangsprogram, som kan brukes via API.

Vertex AI tidlig tilgang: https://goo.gle/4rMHUlq

Google oppgraderte i stillhet Deep Think, ARC-AGI-2 direkte opp til 84,6 %

Google oppgraderte i stillhet Deep Think, ARC-AGI-2 direkte opp til 84,6 %

Ikke bare resonnering

Skal løse vitenskapelige problemer

Hvordan bruke

You Might Also Like

Claude Code Buddy Modifikasjonsguide: Hvordan få glitrende legendariske kjæledyr

Obsidian har lansert Defuddle, og hevet Obsidian Web Clipper til nye høyder

OpenAI plutselig kunngjør "tre-i-ett": sammenslåing av nettleser + programmering + ChatGPT, internt innrømmer de at de har gått feil vei det siste året

2026, ikke tving deg selv til "selvdisiplin"! Gjør disse 8 små tingene, så kommer helsen naturlig

Mødre som sliter med å gå ned i vekt, er absolutt fanget her

AI Browser 24-timers stabil drift guide