Google aggiorna silenziosamente Deep Think, ARC-AGI-2 arriva direttamente all'84,6%

Proprio ora, Google DeepMind ha aggiornato la modalità di ragionamento dedicata di Gemini 3, Deep Think, e i punteggi hanno direttamente distrutto la classifica.

Deep Think

Bisogna sapere che ARC-AGI-2 è attualmente considerato il benchmark all'avanguardia per testare le capacità di ragionamento dell'IA, e prima nessun modello era in grado di ottenere punteggi particolarmente buoni su questo.

基准对比

E Deep Think aggiornato ha ottenuto l'84,6%, confrontiamolo: Claude Opus 4.6 è al 68,8%, GPT-5.2 è al 52,9% e persino il Gemini 3 Pro Preview interno è solo al 31,1%.

Miglioramento enorme.

Non solo ragionamento

L'ambizione di Deep Think è ovviamente più che il semplice ragionamento.

不止推理

Nel benchmark Humanity's Last Exam, soprannominato "l'ultimo esame dell'umanità", Deep Think ha ottenuto il 48,4%. Questo test copre i problemi più difficili in matematica, scienze e ingegneria. Claude Opus 4.6 ha ottenuto il 40,0% e GPT-5.2 il 34,5%.

Anche la programmazione è molto forte:

Su Codeforces, Deep Think ha raggiunto Elo 3455, mentre Gemini 3 Pro Preview è a 2512 e Claude Opus 4.6 è a 2352.

Codeforces

Inoltre, nel benchmark MMMU-Pro per la comprensione e il ragionamento multimodale, Deep Think è in testa con l'81,5%, ma qui il divario tra le varie aziende non è così grande: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

MMMU-Pro

Oltre ai punteggi, Deep Think ha anche ottenuto risultati a livello di medaglia d'oro nella parte scritta delle Olimpiadi di fisica e chimica del 2025.

Risolvere problemi scientifici

Google DeepMind ha sottolineato in particolare questa volta che Deep Think aggiornato non è più solo una macchina per risolvere problemi, ma deve risolvere problemi scientifici e ingegneristici del mondo reale.

科学问题

Hanno mostrato il caso del Wang Lab della Duke University: i ricercatori hanno utilizzato Deep Think per progettare nuovi materiali semiconduttori e ottimizzare il processo di crescita di cristalli complessi, che sono materiali candidati per semiconduttori ad alta temperatura.

Duke案例

机械工程

Ci sono anche ricercatori nel campo dell'ingegneria meccanica che lo usano per iterare prototipi fisici, consentendo all'iterazione hardware di raggiungere la velocità dell'iterazione software, il che significa cicli di miglioramento più rapidi in aree come i dispositivi di assistenza.

Come usare

La modalità Deep Think aggiornata ha ora iniziato a essere distribuita nell'app Gemini agli abbonati a Google AI Ultra.

如何使用

Per ricercatori e sviluppatori, Google ha aperto un programma di accesso anticipato a Vertex AI, che può essere utilizzato tramite API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq

Google aggiorna silenziosamente Deep Think, ARC-AGI-2 arriva direttamente all'84,6%

Google aggiorna silenziosamente Deep Think, ARC-AGI-2 arriva direttamente all'84,6%

Non solo ragionamento

Risolvere problemi scientifici

Come usare

You Might Also Like

Guida alla modifica di Claude Code Buddy: come ottenere un animale domestico leggendario splendente

Obsidian ha lanciato Defuddle, portando Obsidian Web Clipper a un nuovo livello

OpenAI annuncia improvvisamente "tre in uno": fusione di browser + programmazione + ChatGPT, ammettendo internamente di aver sbagliato nell'ultimo anno

2026, non costringerti più alla "disciplina"! Fai queste 8 piccole cose e la salute arriverà naturalmente

Quelle mamme che si sforzano di dimagrire ma non ci riescono, sicuramente sono cadute qui

Guida al funzionamento stabile dell'AI Browser 24 ore su 24