Google opgraderede i stilhed Deep Think, ARC-AGI-2 rammer direkte 84,6%

Lige nu har Google DeepMind opgraderet Gemini 3's dedikerede inferens-tilstand Deep Think, og scorerne smadrer direkte alle rekorder.

Deep Think

Det skal bemærkes, at ARC-AGI-2 i øjeblikket er anerkendt som den førende benchmark for test af AI-inferenskapacitet, og intet model har tidligere opnået særligt gode resultater på denne.

基准对比

Og den opgraderede Deep Think opnåede 84,6%, sammenlignet med: Claude Opus 4.6 er 68,8%, GPT-5.2 er 52,9%, og selv deres egen Gemini 3 Pro Preview er kun 31,1%.

Enorm forbedring.

Ikke kun inferens

Deep Thinks ambitioner er tydeligvis ikke begrænset til inferens.

不止推理

På Humanity's Last Exam, som kaldes "menneskehedens sidste eksamen", opnåede Deep Think 48,4%, denne test dækker de sværeste problemer inden for matematik, videnskab og ingeniørvidenskab. Claude Opus 4.6 scorede 40,0%, og GPT-5.2 er 34,5%.

Programmeringsmæssigt er den også vild:

På Codeforces nåede Deep Think Elo 3455, mens Gemini 3 Pro Preview er 2512, og Claude Opus 4.6 er 2352.

Codeforces

Derudover fører Deep Think også an med 81,5% på MMMU-Pro-benchmarken for multimodal forståelse og inferens, men her er forskellen mellem de forskellige virksomheder ikke så stor: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Udover scoringer opnåede Deep Think også resultater på guldmedaljeniveau i den skriftlige del af fysik- og kemiolympiaden i 2025.

Vil løse videnskabelige problemer

Google DeepMind understregede denne gang, at den opgraderede Deep Think ikke længere kun er en problemløsningsmaskine, men skal løse virkelige videnskabelige og tekniske problemer.

科学问题

De viste Duke University Wang Labs case: Forskere bruger Deep Think til at designe nye halvledermaterialer og optimere vækstprocessen for komplekse krystaller, som er kandidatmaterialer til højtemperatur-halvledere.

Duke案例

机械工程

Der er også forskere inden for maskinteknik, der bruger det til at iterere fysiske prototyper, hvilket gør hardware-iteration lige så hurtig som software-iteration, hvilket betyder hurtigere forbedringscyklusser inden for områder som hjælpeudstyr.

Hvordan man bruger det

Den opgraderede Deep Think-tilstand er nu begyndt at blive skubbet ud til Google AI Ultra-abonnenter i Gemini-appen.

如何使用

For forskere og udviklere har Google åbnet Vertex AI early access program, som kan bruges via API.

Vertex AI early access: https://goo.gle/4rMHUlq

Google opgraderede i stilhed Deep Think, ARC-AGI-2 rammer direkte 84,6%

Google opgraderede i stilhed Deep Think, ARC-AGI-2 rammer direkte 84,6%

Ikke kun inferens

Vil løse videnskabelige problemer

Hvordan man bruger det

You Might Also Like

Claude Code Buddy ændringsvejledning: Hvordan man får glitrende legendariske kæledyr

Obsidian har lanceret Defuddle, som tager Obsidian Web Clipper til nye højder

OpenAI pludselig annoncerer "tre-i-en": browser + programmering + ChatGPT fusionerer, internt erkender de, at de har taget fejl det forgangne år

2026, ikke længere tvinge sig selv til 'selvdisciplin'! Gør disse 8 små ting, så kommer sundheden naturligt

De mødre, der kæmper for at tabe sig, men ikke kan, falder bestemt her

AI Browser 24 timers stabil drift guide