Google actualiza silenciosamente Deep Think, ARC-AGI-2 alcanza directamente el 84.6%

Recientemente, Google DeepMind actualizó el modo de razonamiento dedicado Deep Think de Gemini 3, y las puntuaciones superaron directamente a todos los demás.

Deep Think

Hay que saber que ARC-AGI-2 es actualmente un punto de referencia de vanguardia reconocido para probar la capacidad de razonamiento de la IA, y ningún modelo había obtenido antes una puntuación particularmente buena en él.

基准对比

Mientras que Deep Think actualizado obtuvo un 84.6%, en comparación: Claude Opus 4.6 es 68.8%, GPT-5.2 es 52.9%, e incluso el propio Gemini 3 Pro Preview solo alcanza el 31.1%.

Mejora enorme.

No solo razonamiento

La ambición de Deep Think obviamente no se limita al razonamiento.

不止推理

En Humanity's Last Exam, que se conoce como el "último examen de la humanidad", Deep Think obtuvo un 48.4%. Esta prueba cubre los problemas más difíciles en los campos de las matemáticas, la ciencia y la ingeniería. Claude Opus 4.6 obtuvo un 40.0% y GPT-5.2 un 34.5%.

La programación también es impresionante:

En Codeforces, Deep Think alcanzó Elo 3455, mientras que Gemini 3 Pro Preview es 2512 y Claude Opus 4.6 es 2352.

Codeforces

Además, en el punto de referencia MMMU-Pro de comprensión y razonamiento multimodal, Deep Think también lidera con un 81.5%, aunque aquí la diferencia entre las distintas empresas no es tan grande: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Además de las puntuaciones, Deep Think también obtuvo un resultado de nivel de medalla de oro en la parte escrita de las Olimpiadas de Física y Química de 2025.

Para resolver problemas científicos

Google DeepMind enfatizó especialmente esta vez que Deep Think actualizado ya no es solo una máquina de resolución de problemas, sino que está destinado a resolver problemas científicos y de ingeniería del mundo real.

科学问题

Mostraron el caso del Wang Lab de la Universidad de Duke: los investigadores utilizaron Deep Think para diseñar nuevos materiales semiconductores, optimizando el proceso de crecimiento de cristales complejos, que son materiales candidatos para semiconductores de alta temperatura.

Duke案例

机械工程

También hay investigadores en el campo de la ingeniería mecánica que lo utilizan para iterar prototipos físicos, permitiendo que la iteración de hardware alcance la velocidad de la iteración de software, lo que significa ciclos de mejora más rápidos en áreas como los dispositivos de asistencia.

Cómo usarlo

El modo Deep Think actualizado ahora se está implementando en la aplicación Gemini para los suscriptores de Google AI Ultra.

如何使用

Para investigadores y desarrolladores, Google ha abierto un programa de acceso anticipado a Vertex AI, que se puede utilizar a través de la API.

Acceso anticipado a Vertex AI: https://goo.gle/4rMHUlq

Google actualiza silenciosamente Deep Think, ARC-AGI-2 alcanza directamente el 84.6%

Google actualiza silenciosamente Deep Think, ARC-AGI-2 alcanza directamente el 84.6%

No solo razonamiento

Para resolver problemas científicos

Cómo usarlo

You Might Also Like

Guía de Modificación de Claude Code Buddy: Cómo Obtener Mascotas Legendarias Brillantes

Obsidian lanzó Defuddle, llevando Obsidian Web Clipper a un nuevo nivel

OpenAI anuncia de repente 'tres en uno': fusión de navegador + programación + ChatGPT, admitiendo errores en el último año

2026, ¡no más forzarme a ser 'disciplinado'! Haz estas 8 pequeñas cosas y la salud vendrá naturalmente

Las mamás que se esfuerzan por perder peso y no lo logran, definitivamente están atrapadas aquí

Guía para el funcionamiento estable del navegador AI 24 horas