Google actualizó silenciosamente Deep Think, ARC-AGI-2 alcanza directamente el 84.6%

Recientemente, Google DeepMind actualizó el modo de razonamiento dedicado de Gemini 3, Deep Think, y los puntajes están arrasando con las tablas de clasificación.

Deep Think

Hay que tener en cuenta que ARC-AGI-2 es actualmente un punto de referencia de vanguardia reconocido para probar la capacidad de razonamiento de la IA, y ningún modelo había obtenido antes una puntuación particularmente buena en él.

基准对比

Mientras que Deep Think actualizado obtuvo un 84.6%, en comparación: Claude Opus 4.6 obtuvo un 68.8%, GPT-5.2 un 52.9%, e incluso el propio Gemini 3 Pro Preview solo un 31.1%.

Mejora enorme.

No solo razonamiento

La ambición de Deep Think obviamente va más allá del razonamiento.

不止推理

En Humanity's Last Exam, un punto de referencia conocido como el "último examen de la humanidad", Deep Think obtuvo un 48.4%. Esta prueba cubre los problemas más difíciles en los campos de las matemáticas, la ciencia y la ingeniería. Claude Opus 4.6 obtuvo un 40.0% y GPT-5.2 un 34.5%.

La programación también es impresionante:

En Codeforces, Deep Think alcanzó un Elo de 3455, mientras que Gemini 3 Pro Preview obtuvo 2512 y Claude Opus 4.6 obtuvo 2352.

Codeforces

Además, en el punto de referencia MMMU-Pro de comprensión y razonamiento multimodal, Deep Think también lidera con un 81.5%, aunque aquí la diferencia entre los distintos modelos no es tan grande: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Además de los puntajes, Deep Think también obtuvo un rendimiento de nivel de medalla de oro en la parte escrita de las Olimpiadas de Física y Química de 2025.

Para resolver problemas científicos

Google DeepMind enfatizó especialmente esta vez que Deep Think actualizado ya no es solo una máquina de resolución de problemas, sino que está destinado a resolver problemas científicos y de ingeniería del mundo real.

科学问题

Mostraron el caso del Wang Lab de la Universidad de Duke: los investigadores utilizaron Deep Think para diseñar nuevos materiales semiconductores y optimizar el complejo proceso de crecimiento de cristales, que son materiales candidatos para semiconductores de alta temperatura.

Duke案例

机械工程

También hay investigadores en el campo de la ingeniería mecánica que lo utilizan para iterar prototipos físicos, permitiendo que la iteración del hardware alcance la velocidad de la iteración del software, lo que significa ciclos de mejora más rápidos en áreas como los dispositivos de asistencia.

Cómo usarlo

El modo Deep Think actualizado ahora se está implementando en la aplicación Gemini para los suscriptores de Google AI Ultra.

如何使用

Para investigadores y desarrolladores, Google ha abierto un programa de acceso temprano a Vertex AI, que se puede utilizar a través de la API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq

Google actualizó silenciosamente Deep Think, ARC-AGI-2 alcanza directamente el 84.6%

Google actualizó silenciosamente Deep Think, ARC-AGI-2 alcanza directamente el 84.6%

No solo razonamiento

Para resolver problemas científicos

Cómo usarlo

You Might Also Like

Guía de modificación de Claude Code Buddy: Cómo obtener mascotas legendarias brillantes

Obsidian lanzó Defuddle, llevando Obsidian Web Clipper a un nuevo nivel

OpenAI repentinamente anuncia "tres en uno": fusión de navegador + programación + ChatGPT, admitiendo internamente que se equivocaron el año pasado

2026, ¡no más forzarme a ser 'disciplinado'! Haz estas 8 pequeñas cosas y la salud vendrá naturalmente

Las mamás que se esfuerzan por adelgazar y no lo logran, definitivamente caen aquí

Guía para el funcionamiento estable del navegador AI 24 horas