Google aggiorna silenziosamente Deep Think, ARC-AGI-2 arriva direttamente all'84,6%
Google aggiorna silenziosamente Deep Think, ARC-AGI-2 arriva direttamente all'84,6%
Proprio ora, Google DeepMind ha aggiornato la modalità di ragionamento dedicata di Gemini 3, Deep Think, e i punteggi hanno direttamente distrutto la classifica.

Bisogna sapere che ARC-AGI-2 è attualmente considerato il benchmark all'avanguardia per testare le capacità di ragionamento dell'IA, e prima nessun modello era in grado di ottenere punteggi particolarmente buoni su questo.

E Deep Think aggiornato ha ottenuto l'84,6%, confrontiamolo: Claude Opus 4.6 è al 68,8%, GPT-5.2 è al 52,9% e persino il Gemini 3 Pro Preview interno è solo al 31,1%.
Miglioramento enorme.
Non solo ragionamento
L'ambizione di Deep Think è ovviamente più che il semplice ragionamento.

Nel benchmark Humanity's Last Exam, soprannominato "l'ultimo esame dell'umanità", Deep Think ha ottenuto il 48,4%. Questo test copre i problemi più difficili in matematica, scienze e ingegneria. Claude Opus 4.6 ha ottenuto il 40,0% e GPT-5.2 il 34,5%.
Anche la programmazione è molto forte:
Su Codeforces, Deep Think ha raggiunto Elo 3455, mentre Gemini 3 Pro Preview è a 2512 e Claude Opus 4.6 è a 2352.

Inoltre, nel benchmark MMMU-Pro per la comprensione e il ragionamento multimodale, Deep Think è in testa con l'81,5%, ma qui il divario tra le varie aziende non è così grande: Gemini 3 Pro Preview 81,0%, GPT-5.2 79,5%, Claude Opus 4.6 73,9%.

Oltre ai punteggi, Deep Think ha anche ottenuto risultati a livello di medaglia d'oro nella parte scritta delle Olimpiadi di fisica e chimica del 2025.
Risolvere problemi scientifici
Google DeepMind ha sottolineato in particolare questa volta che Deep Think aggiornato non è più solo una macchina per risolvere problemi, ma deve risolvere problemi scientifici e ingegneristici del mondo reale.

Hanno mostrato il caso del Wang Lab della Duke University: i ricercatori hanno utilizzato Deep Think per progettare nuovi materiali semiconduttori e ottimizzare il processo di crescita di cristalli complessi, che sono materiali candidati per semiconduttori ad alta temperatura.


Ci sono anche ricercatori nel campo dell'ingegneria meccanica che lo usano per iterare prototipi fisici, consentendo all'iterazione hardware di raggiungere la velocità dell'iterazione software, il che significa cicli di miglioramento più rapidi in aree come i dispositivi di assistenza.
Come usare
La modalità Deep Think aggiornata ha ora iniziato a essere distribuita nell'app Gemini agli abbonati a Google AI Ultra.

Per ricercatori e sviluppatori, Google ha aperto un programma di accesso anticipato a Vertex AI, che può essere utilizzato tramite API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





