Google met discrètement à niveau Deep Think, ARC-AGI-2 atteint directement 84,6 %
Google met discrètement à niveau Deep Think, ARC-AGI-2 atteint directement 84,6 %
Google DeepMind vient de mettre à niveau Deep Think, le mode de raisonnement dédié de Gemini 3, et les scores sont tout simplement exceptionnels.

Il faut savoir qu'ARC-AGI-2 est actuellement reconnu comme une référence de pointe pour tester les capacités de raisonnement de l'IA, et aucun modèle n'avait obtenu de très bons résultats auparavant.

Et Deep Think, après la mise à niveau, a obtenu 84,6 %, comparé à 68,8 % pour Claude Opus 4.6, 52,9 % pour GPT-5.2, et même seulement 31,1 % pour Gemini 3 Pro Preview de la même entreprise.
Amélioration considérable.
Pas seulement le raisonnement
Les ambitions de Deep Think vont évidemment au-delà du simple raisonnement.

Sur la base de référence Humanity's Last Exam, surnommée « l'examen final de l'humanité », Deep Think a obtenu 48,4 %. Ce test couvre les problèmes les plus difficiles en mathématiques, sciences et ingénierie. Claude Opus 4.6 a obtenu 40,0 % et GPT-5.2 34,5 %.
La programmation est également très performante :
Sur Codeforces, Deep Think a atteint Elo 3455, tandis que Gemini 3 Pro Preview est à 2512 et Claude Opus 4.6 à 2352.

De plus, sur la base de référence MMMU-Pro pour la compréhension et le raisonnement multimodaux, Deep Think est également en tête avec 81,5 %, bien que les écarts entre les différentes entreprises ne soient pas aussi importants ici : Gemini 3 Pro Preview 81,0 %, GPT-5.2 79,5 %, Claude Opus 4.6 73,9 %.

Outre les scores, Deep Think a également obtenu un résultat de niveau médaille d'or dans la partie écrite des Olympiades de physique et de chimie de 2025.
Résoudre des problèmes scientifiques
Google DeepMind a particulièrement souligné cette fois que Deep Think, après la mise à niveau, n'est plus seulement une machine à résoudre des problèmes, mais vise à résoudre des problèmes scientifiques et d'ingénierie du monde réel.

Ils ont présenté le cas du Wang Lab de l'Université Duke : des chercheurs utilisent Deep Think pour concevoir de nouveaux matériaux semi-conducteurs, optimisant le processus de croissance de cristaux complexes, qui sont des matériaux candidats pour les semi-conducteurs à haute température.


Et des chercheurs dans le domaine de l'ingénierie mécanique l'utilisent pour itérer des prototypes physiques, permettant à l'itération du matériel d'atteindre la vitesse de l'itération du logiciel, ce qui signifie des cycles d'amélioration plus rapides dans des domaines tels que les dispositifs d'assistance.
Comment l'utiliser
Le mode Deep Think mis à niveau a maintenant commencé à être déployé dans l'application Gemini pour les abonnés Google AI Ultra.

Pour les chercheurs et les développeurs, Google a ouvert un programme d'accès anticipé à Vertex AI, qui peut être utilisé via l'API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





