Google lặng lẽ nâng cấp Deep Think, ARC-AGI-2 đạt thẳng 84.6%
Google lặng lẽ nâng cấp Deep Think, ARC-AGI-2 đạt thẳng 84.6%
Vừa rồi, Google DeepMind đã nâng cấp chế độ suy luận chuyên dụng Deep Think của Gemini 3, điểm số trực tiếp đứng đầu bảng xếp hạng.

Cần biết rằng, ARC-AGI-2 hiện được công nhận là chuẩn mực hàng đầu để kiểm tra khả năng suy luận của AI, trước đây chưa có mô hình nào đạt được điểm số đặc biệt tốt trên chuẩn mực này.

Và Deep Think sau khi nâng cấp đã đạt 84.6%, so sánh một chút: Claude Opus 4.6 là 68.8%, GPT-5.2 là 52.9%, ngay cả Gemini 3 Pro Preview của chính họ cũng chỉ đạt 31.1%.
Cải thiện rất lớn.
Không chỉ suy luận
Tham vọng của Deep Think rõ ràng không chỉ dừng lại ở suy luận.

Trên chuẩn mực Humanity's Last Exam, được mệnh danh là "kỳ thi cuối cùng của nhân loại", Deep Think đã đạt 48.4%, bài kiểm tra này bao gồm những câu hỏi khó nhất trong lĩnh vực toán học, khoa học và kỹ thuật. Claude Opus 4.6 đạt 40.0%, GPT-5.2 là 34.5%.
Về lập trình cũng rất mạnh:
Trên Codeforces, Deep Think đạt Elo 3455, trong khi Gemini 3 Pro Preview là 2512, Claude Opus 4.6 là 2352.

Ngoài ra, trên chuẩn mực MMMU-Pro về hiểu và suy luận đa phương thức, Deep Think cũng dẫn đầu với 81.5%, tuy nhiên sự khác biệt giữa các bên không quá lớn: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

Ngoài điểm số, Deep Think còn đạt được thành tích ngang với huy chương vàng trong phần thi viết của kỳ thi Olympic Vật lý và Hóa học năm 2025.
Muốn giải quyết các vấn đề khoa học
Google DeepMind lần này đặc biệt nhấn mạnh rằng, Deep Think sau khi nâng cấp không còn chỉ là một cỗ máy giải bài tập, mà là để giải quyết các vấn đề khoa học và kỹ thuật trong thế giới thực.

Họ đã trình bày trường hợp của Wang Lab thuộc Đại học Duke: Các nhà nghiên cứu sử dụng Deep Think để thiết kế vật liệu bán dẫn mới, tối ưu hóa quá trình phát triển tinh thể phức tạp, những tinh thể này là vật liệu tiềm năng cho chất bán dẫn nhiệt độ cao.


Và các nhà nghiên cứu trong lĩnh vực kỹ thuật cơ khí sử dụng nó để lặp lại các nguyên mẫu vật lý, giúp tốc độ lặp lại phần cứng đạt đến tốc độ lặp lại phần mềm, điều này có nghĩa là chu kỳ cải tiến nhanh hơn trong các lĩnh vực như thiết bị hỗ trợ.
Cách sử dụng
Chế độ Deep Think sau khi nâng cấp hiện đã bắt đầu được đẩy đến người dùng đăng ký Google AI Ultra trong Gemini App.

Đối với các nhà nghiên cứu và nhà phát triển, Google đã mở chương trình truy cập sớm Vertex AI, có thể sử dụng thông qua API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





