Google hat Deep Think still und leise aktualisiert, ARC-AGI-2 direkt auf 84,6 %

Gerade eben hat Google DeepMind den dedizierten Inferenzmodus Deep Think von Gemini 3 aktualisiert, und die Benchmarks wurden direkt dominiert.

Deep Think

Man muss wissen, dass ARC-AGI-2 derzeit als der führende Benchmark für die Testung der KI-Inferenzfähigkeiten gilt, und bisher kein Modell hier besonders gute Ergebnisse erzielen konnte.

基准对比

Und das aktualisierte Deep Think erreichte 84,6 %. Zum Vergleich: Claude Opus 4.6 liegt bei 68,8 %, GPT-5.2 bei 52,9 % und selbst das hauseigene Gemini 3 Pro Preview nur bei 31,1 %.

Enorme Verbesserung.

Mehr als nur Inferenz

Die Ambitionen von Deep Think gehen offensichtlich über die reine Inferenz hinaus.

不止推理

Beim Humanity's Last Exam, dem sogenannten „letzten Examen der Menschheit“, erreichte Deep Think 48,4 %. Dieser Test deckt die schwierigsten Probleme in den Bereichen Mathematik, Naturwissenschaften und Ingenieurwesen ab. Claude Opus 4.6 erreichte 40,0 % und GPT-5.2 34,5 %.

Auch im Bereich Programmierung ist es stark:

Auf Codeforces erreichte Deep Think Elo 3455, während Gemini 3 Pro Preview bei 2512 und Claude Opus 4.6 bei 2352 liegen.

Codeforces

Darüber hinaus führt Deep Think auch beim MMMU-Pro-Benchmark für multimodales Verständnis und Inferenz mit 81,5 %, aber hier sind die Unterschiede zwischen den Anbietern nicht so groß: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

MMMU-Pro

Neben den Benchmarks erreichte Deep Think auch bei den schriftlichen Teilen der Physik- und Chemie-Olympiade 2025 ein Ergebnis auf Goldmedaillen-Niveau.

Wissenschaftliche Probleme lösen

Google DeepMind betonte diesmal besonders, dass das aktualisierte Deep Think nicht mehr nur eine Problemlösungsmaschine ist, sondern reale wissenschaftliche und technische Probleme lösen soll.

科学问题

Sie zeigten den Fall des Wang Lab der Duke University: Forscher verwenden Deep Think, um neuartige Halbleitermaterialien zu entwerfen und das Wachstum komplexer Kristalle zu optimieren, die Kandidaten für Hochtemperaturhalbleiter sind.

Duke案例

机械工程

Auch Forscher im Bereich Maschinenbau nutzen es, um physische Prototypen zu iterieren, wodurch die Hardware-Iteration die Geschwindigkeit der Software-Iteration erreicht. Dies bedeutet schnellere Verbesserungszyklen in Bereichen wie Hilfsgeräten.

Wie man es benutzt

Der aktualisierte Deep Think-Modus wird jetzt in der Gemini App an Google AI Ultra-Abonnenten ausgerollt.

如何使用

Für Forscher und Entwickler hat Google ein Vertex AI Early Access Program eröffnet, das über eine API genutzt werden kann.

Vertex AI Early Access: https://goo.gle/4rMHUlq

Google hat Deep Think still und leise aktualisiert, ARC-AGI-2 direkt auf 84,6 %

Google hat Deep Think still und leise aktualisiert, ARC-AGI-2 direkt auf 84,6 %

Mehr als nur Inferenz

Wissenschaftliche Probleme lösen

Wie man es benutzt

You Might Also Like

Claude Code Buddy Änderungsanleitung: Wie man ein schimmerndes legendäres Haustier erhält

Obsidian hat Defuddle eingeführt und den Obsidian Web Clipper auf ein neues Niveau gehoben

OpenAI kündigt plötzlich "Drei-in-eins" an: Fusion von Browser + Programmierung + ChatGPT, interne Anerkennung von Fehlern im vergangenen Jahr

2026, sich nicht mehr selbst zur 'Disziplin' zwingen! Machen Sie diese 8 kleinen Dinge gut, Gesundheit kommt von ganz allein

Die Mütter, die sich bemühen abzunehmen und es nicht schaffen, scheitern definitiv hier

AI Browser 24 Stunden Stabilitätsleitfaden