Google actualitza silenciosament Deep Think, ARC-AGI-2 arriba directament al 84,6%

Acaba de passar, Google DeepMind ha actualitzat el mode de raonament dedicat de Gemini 3, Deep Think, i les puntuacions han arrasat.

Deep Think

Cal saber que ARC-AGI-2 és actualment un punt de referència d'avantguarda reconegut per provar la capacitat de raonament de la IA, i abans cap model havia obtingut una puntuació especialment bona en aquest.

基准对比

I el Deep Think actualitzat ha obtingut un 84,6%, en comparació: Claude Opus 4.6 és un 68,8%, GPT-5.2 és un 52,9%, i fins i tot el propi Gemini 3 Pro Preview només arriba al 31,1%.

Millora enorme.

No només raonament

L'ambició de Deep Think evidentment no es limita al raonament.

不止推理

En el punt de referència Humanity's Last Exam, que es coneix com l'«últim examen de la humanitat», Deep Think ha obtingut un 48,4%. Aquesta prova cobreix els problemes més difícils en els camps de les matemàtiques, la ciència i l'enginyeria. Claude Opus 4.6 va obtenir un 40,0% i GPT-5.2 un 34,5%.

La programació també és molt potent:

En Codeforces, Deep Think ha assolit un Elo 3455, mentre que Gemini 3 Pro Preview és 2512 i Claude Opus 4.6 és 2352.

Codeforces

D'altra banda, en el punt de referència MMMU-Pro de comprensió i raonament multimodal, Deep Think també lidera amb un 81,5%, però aquí la diferència entre les empreses no és tan gran: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

A més de les puntuacions, Deep Think també ha obtingut un resultat de nivell de medalla d'or a la part escrita de les Olimpíades de Física i Química del 2025.

Per resoldre problemes científics

Google DeepMind ha destacat especialment aquesta vegada que el Deep Think actualitzat ja no és només una màquina de resoldre problemes, sinó que ha de resoldre problemes científics i d'enginyeria del món real.

科学问题

Han mostrat el cas del Wang Lab de la Universitat de Duke: els investigadors utilitzen Deep Think per dissenyar nous materials semiconductors, optimitzar el procés de creixement de cristalls complexos, que són materials candidats per a semiconductors d'alta temperatura.

Duke案例

机械工程

També hi ha investigadors en el camp de l'enginyeria mecànica que l'utilitzen per iterar prototips físics, fent que la iteració del maquinari assoleixi la velocitat de la iteració del programari, cosa que significa cicles de millora més ràpids en camps com els dispositius d'assistència.

Com utilitzar-lo

El mode Deep Think actualitzat ja ha començat a enviar-se als usuaris de la subscripció Google AI Ultra a l'aplicació Gemini.

如何使用

Per als investigadors i desenvolupadors, Google ha obert un programa d'accés anticipat a Vertex AI, que es pot utilitzar mitjançant l'API.

Accés anticipat a Vertex AI: https://goo.gle/4rMHUlq

Google actualitza silenciosament Deep Think, ARC-AGI-2 arriba directament al 84,6%

Google actualitza silenciosament Deep Think, ARC-AGI-2 arriba directament al 84,6%

No només raonament

Per resoldre problemes científics

Com utilitzar-lo

You Might Also Like

Guia de modificació de Claude Code Buddy: com obtenir mascotes de llegenda brillants

Obsidian llança Defuddle, portant Obsidian Web Clipper a un nou nivell

OpenAI de sobte anuncia "tres en un": fusió de navegador + programació + ChatGPT, reconeixent que han comès errors durant l'últim any

2026, no et forcis a ser 'autònom'! Fes aquestes 8 petites coses, la salut vindrà de manera natural

Aquells pares que es dediquen a perdre pes i no ho aconsegueixen, segurament fallen aquí

Guia per a l'execució estable de l'AI Browser durant 24 hores