Google atualiza silenciosamente o Deep Think, ARC-AGI-2 atinge diretamente 84,6%

Recentemente, o Google DeepMind atualizou o modo de raciocínio dedicado do Gemini 3, o Deep Think, e os resultados dos benchmarks foram arrasadores.

Deep Think

É importante saber que o ARC-AGI-2 é atualmente um benchmark de ponta reconhecido para testar a capacidade de raciocínio da IA, e nenhum modelo conseguiu obter uma pontuação particularmente boa nele antes.

基准对比

E o Deep Think atualizado atingiu 84,6%, compare: Claude Opus 4.6 é 68,8%, GPT-5.2 é 52,9%, e até mesmo o Gemini 3 Pro Preview da própria empresa atinge apenas 31,1%.

Melhora enorme.

Não apenas raciocínio

A ambição do Deep Think obviamente não se limita ao raciocínio.

不止推理

No Humanity's Last Exam, um benchmark apelidado de "o último exame da humanidade", o Deep Think obteve 48,4%. Este teste cobre os problemas mais difíceis em matemática, ciência e engenharia. Claude Opus 4.6 obteve 40,0% e GPT-5.2 obteve 34,5%.

Na programação, também é muito forte:

No Codeforces, o Deep Think atingiu Elo 3455, enquanto o Gemini 3 Pro Preview é 2512 e o Claude Opus 4.6 é 2352.

Codeforces

Além disso, no benchmark MMMU-Pro de compreensão e raciocínio multimodal, o Deep Think também lidera com 81,5%, mas a diferença entre as empresas não é tão grande aqui: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Além dos benchmarks, o Deep Think também obteve um desempenho de nível medalha de ouro na parte escrita das Olimpíadas de Física e Química de 2025.

Para resolver problemas científicos

O Google DeepMind enfatizou desta vez que o Deep Think atualizado não é mais apenas uma máquina de resolução de problemas, mas sim para resolver problemas científicos e de engenharia do mundo real.

科学问题

Eles mostraram o caso do Wang Lab da Duke University: os pesquisadores usaram o Deep Think para projetar novos materiais semicondutores, otimizar o processo de crescimento de cristais complexos, que são materiais candidatos a semicondutores de alta temperatura.

Duke案例

机械工程

Há também pesquisadores na área de engenharia mecânica que o usam para iterar protótipos físicos, permitindo que a iteração de hardware atinja a velocidade da iteração de software, o que significa ciclos de melhoria mais rápidos em áreas como dispositivos auxiliares.

Como usar

O modo Deep Think atualizado já começou a ser lançado no Gemini App para assinantes do Google AI Ultra.

如何使用

Para pesquisadores e desenvolvedores, o Google abriu um programa de acesso antecipado ao Vertex AI, que pode ser usado por meio de API.

Acesso antecipado ao Vertex AI: https://goo.gle/4rMHUlq

Google atualiza silenciosamente o Deep Think, ARC-AGI-2 atinge diretamente 84,6%

Google atualiza silenciosamente o Deep Think, ARC-AGI-2 atinge diretamente 84,6%

Não apenas raciocínio

Para resolver problemas científicos

Como usar

You Might Also Like

Guia de Modificação do Claude Code Buddy: Como Obter um Pet Lendário Brilhante

Obsidian lançou Defuddle, elevando o Obsidian Web Clipper a um novo patamar

OpenAI de repente anuncia "três em um": fusão de navegador + programação + ChatGPT, admitindo internamente que errou no último ano

2026, não se force mais a ser "disciplinado"! Faça estas 8 pequenas coisas e a saúde virá naturalmente

Aquelas mães que se esforçam para emagrecer e não conseguem, definitivamente caem aqui

Guia de Funcionamento Estável do Navegador AI 24 Horas