Google hat Deep Think still und leise aktualisiert, ARC-AGI-2 direkt auf 84,6 %
Google hat Deep Think still und leise aktualisiert, ARC-AGI-2 direkt auf 84,6 %
Gerade eben hat Google DeepMind den dedizierten Inferenzmodus Deep Think von Gemini 3 aktualisiert, und die Benchmarks wurden direkt dominiert.

Man muss wissen, dass ARC-AGI-2 derzeit als der führende Benchmark für die Testung der KI-Inferenzfähigkeiten gilt, und bisher kein Modell hier besonders gute Ergebnisse erzielen konnte.

Und das aktualisierte Deep Think erreichte 84,6 %. Zum Vergleich: Claude Opus 4.6 liegt bei 68,8 %, GPT-5.2 bei 52,9 % und selbst das hauseigene Gemini 3 Pro Preview nur bei 31,1 %.
Enorme Verbesserung.
Mehr als nur Inferenz
Die Ambitionen von Deep Think gehen offensichtlich über die reine Inferenz hinaus.

Beim Humanity's Last Exam, dem sogenannten „letzten Examen der Menschheit“, erreichte Deep Think 48,4 %. Dieser Test deckt die schwierigsten Probleme in den Bereichen Mathematik, Naturwissenschaften und Ingenieurwesen ab. Claude Opus 4.6 erreichte 40,0 % und GPT-5.2 34,5 %.
Auch im Bereich Programmierung ist es stark:
Auf Codeforces erreichte Deep Think Elo 3455, während Gemini 3 Pro Preview bei 2512 und Claude Opus 4.6 bei 2352 liegen.

Darüber hinaus führt Deep Think auch beim MMMU-Pro-Benchmark für multimodales Verständnis und Inferenz mit 81,5 %, aber hier sind die Unterschiede zwischen den Anbietern nicht so groß: Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

Neben den Benchmarks erreichte Deep Think auch bei den schriftlichen Teilen der Physik- und Chemie-Olympiade 2025 ein Ergebnis auf Goldmedaillen-Niveau.
Wissenschaftliche Probleme lösen
Google DeepMind betonte diesmal besonders, dass das aktualisierte Deep Think nicht mehr nur eine Problemlösungsmaschine ist, sondern reale wissenschaftliche und technische Probleme lösen soll.

Sie zeigten den Fall des Wang Lab der Duke University: Forscher verwenden Deep Think, um neuartige Halbleitermaterialien zu entwerfen und das Wachstum komplexer Kristalle zu optimieren, die Kandidaten für Hochtemperaturhalbleiter sind.


Auch Forscher im Bereich Maschinenbau nutzen es, um physische Prototypen zu iterieren, wodurch die Hardware-Iteration die Geschwindigkeit der Software-Iteration erreicht. Dies bedeutet schnellere Verbesserungszyklen in Bereichen wie Hilfsgeräten.
Wie man es benutzt
Der aktualisierte Deep Think-Modus wird jetzt in der Gemini App an Google AI Ultra-Abonnenten ausgerollt.

Für Forscher und Entwickler hat Google ein Vertex AI Early Access Program eröffnet, das über eine API genutzt werden kann.
Vertex AI Early Access: https://goo.gle/4rMHUlq

