Google heeft Deep Think stilletjes geüpgraded, ARC-AGI-2 haalt direct 84,6%
Google heeft Deep Think stilletjes geüpgraded, ARC-AGI-2 haalt direct 84,6%
Zojuist heeft Google DeepMind de speciale redeneermodus Deep Think van Gemini 3 geüpgraded, en de scores zijn direct de beste in de lijst.

Je moet weten dat ARC-AGI-2 momenteel wordt erkend als de toonaangevende benchmark voor het testen van AI-redeneervermogen, en voorheen kon geen enkel model hierop bijzonder goede scores behalen.

En de geüpgradede Deep Think haalde 84,6%, ter vergelijking: Claude Opus 4.6 is 68,8%, GPT-5.2 is 52,9%, en zelfs de eigen Gemini 3 Pro Preview is slechts 31,1%.
Enorme verbetering.
Meer dan alleen redeneren
De ambities van Deep Think reiken duidelijk verder dan alleen redeneren.

Op Humanity's Last Exam, een benchmark die bekend staat als het "laatste examen van de mensheid", behaalde Deep Think 48,4%. Deze test omvat de moeilijkste problemen op het gebied van wiskunde, wetenschap en engineering. Claude Opus 4.6 scoorde 40,0% en GPT-5.2 34,5%.
Ook op het gebied van programmeren is het erg sterk:
Op Codeforces bereikte Deep Think Elo 3455, terwijl Gemini 3 Pro Preview 2512 is en Claude Opus 4.6 2352.

Daarnaast loopt Deep Think ook voorop op de MMMU-Pro benchmark voor multimodale begrip en redenering met 81,5%, maar hier zijn de verschillen tussen de verschillende bedrijven niet zo groot: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

Naast de scores behaalde Deep Think ook een gouden medaille-waardige score op het schriftelijke gedeelte van de natuurkunde- en scheikunde-olympiade van 2025.
Wetenschappelijke problemen oplossen
Google DeepMind benadrukte deze keer in het bijzonder dat de geüpgradede Deep Think niet langer alleen een probleemoplossende machine is, maar echte wetenschappelijke en technische problemen moet oplossen.

Ze toonden het voorbeeld van Wang Lab van Duke University: onderzoekers gebruiken Deep Think om nieuwe halfgeleidermaterialen te ontwerpen en het groeiproces van complexe kristallen te optimaliseren, die kandidaat-materialen zijn voor halfgeleiders voor hoge temperaturen.


Er zijn ook onderzoekers op het gebied van werktuigbouwkunde die het gebruiken om fysieke prototypes te herhalen, waardoor de hardware-iteratie de snelheid van software-iteratie bereikt, wat een snellere verbeteringscyclus betekent op gebieden zoals ondersteunende apparatuur.
Hoe te gebruiken
De geüpgradede Deep Think-modus wordt nu uitgerold naar Google AI Ultra-abonnees in de Gemini-app.

Voor onderzoekers en ontwikkelaars heeft Google het Vertex AI Early Access Program geopend, dat via API kan worden gebruikt.
Vertex AI Early Access: https://goo.gle/4rMHUlq





