Google heeft Deep Think stilletjes geüpgraded, ARC-AGI-2 haalt direct 84,6%

Zojuist heeft Google DeepMind de speciale redeneermodus Deep Think van Gemini 3 geüpgraded, en de scores zijn direct de beste in de lijst.

Deep Think

Je moet weten dat ARC-AGI-2 momenteel wordt erkend als de toonaangevende benchmark voor het testen van AI-redeneervermogen, en voorheen kon geen enkel model hierop bijzonder goede scores behalen.

基准对比

En de geüpgradede Deep Think haalde 84,6%, ter vergelijking: Claude Opus 4.6 is 68,8%, GPT-5.2 is 52,9%, en zelfs de eigen Gemini 3 Pro Preview is slechts 31,1%.

Enorme verbetering.

Meer dan alleen redeneren

De ambities van Deep Think reiken duidelijk verder dan alleen redeneren.

不止推理

Op Humanity's Last Exam, een benchmark die bekend staat als het "laatste examen van de mensheid", behaalde Deep Think 48,4%. Deze test omvat de moeilijkste problemen op het gebied van wiskunde, wetenschap en engineering. Claude Opus 4.6 scoorde 40,0% en GPT-5.2 34,5%.

Ook op het gebied van programmeren is het erg sterk:

Op Codeforces bereikte Deep Think Elo 3455, terwijl Gemini 3 Pro Preview 2512 is en Claude Opus 4.6 2352.

Codeforces

Daarnaast loopt Deep Think ook voorop op de MMMU-Pro benchmark voor multimodale begrip en redenering met 81,5%, maar hier zijn de verschillen tussen de verschillende bedrijven niet zo groot: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Naast de scores behaalde Deep Think ook een gouden medaille-waardige score op het schriftelijke gedeelte van de natuurkunde- en scheikunde-olympiade van 2025.

Wetenschappelijke problemen oplossen

Google DeepMind benadrukte deze keer in het bijzonder dat de geüpgradede Deep Think niet langer alleen een probleemoplossende machine is, maar echte wetenschappelijke en technische problemen moet oplossen.

科学问题

Ze toonden het voorbeeld van Wang Lab van Duke University: onderzoekers gebruiken Deep Think om nieuwe halfgeleidermaterialen te ontwerpen en het groeiproces van complexe kristallen te optimaliseren, die kandidaat-materialen zijn voor halfgeleiders voor hoge temperaturen.

Duke案例

机械工程

Er zijn ook onderzoekers op het gebied van werktuigbouwkunde die het gebruiken om fysieke prototypes te herhalen, waardoor de hardware-iteratie de snelheid van software-iteratie bereikt, wat een snellere verbeteringscyclus betekent op gebieden zoals ondersteunende apparatuur.

Hoe te gebruiken

De geüpgradede Deep Think-modus wordt nu uitgerold naar Google AI Ultra-abonnees in de Gemini-app.

如何使用

Voor onderzoekers en ontwikkelaars heeft Google het Vertex AI Early Access Program geopend, dat via API kan worden gebruikt.

Vertex AI Early Access: https://goo.gle/4rMHUlq

Google heeft Deep Think stilletjes geüpgraded, ARC-AGI-2 haalt direct 84,6%

Google heeft Deep Think stilletjes geüpgraded, ARC-AGI-2 haalt direct 84,6%

Meer dan alleen redeneren

Wetenschappelijke problemen oplossen

Hoe te gebruiken

You Might Also Like

Claude Code Buddy Wijzigingsgids: Hoe je een Glanzend Legendarisch Huisdier Krijgt

Obsidian heeft Defuddle gelanceerd, waardoor Obsidian Web Clipper naar een nieuw niveau is getild

OpenAI kondigt plotseling 'drie-in-één' aan: browser + programmeren + ChatGPT samengevoegd, interne erkenning van fouten van het afgelopen jaar

2026, niet meer jezelf dwingen tot 'discipline'! Doe deze 8 kleine dingen goed, en gezondheid komt vanzelf

Die moeders die hard proberen af te vallen maar niet slanker worden, zijn hier absoluut de dupe van

AI Browser 24 uur stabiele werking gids