Google lặng lẽ nâng cấp Deep Think, ARC-AGI-2 đạt thẳng 84.6%

2/14/2026
3 min read

Google lặng lẽ nâng cấp Deep Think, ARC-AGI-2 đạt thẳng 84.6%

Vừa rồi, Google DeepMind đã nâng cấp chế độ suy luận chuyên dụng Deep Think của Gemini 3, điểm số trực tiếp đứng đầu bảng xếp hạng.

Deep Think

Cần biết rằng, ARC-AGI-2 hiện được công nhận là chuẩn mực hàng đầu để kiểm tra khả năng suy luận của AI, trước đây chưa có mô hình nào đạt được điểm số đặc biệt tốt trên chuẩn mực này.

基准对比

Và Deep Think sau khi nâng cấp đã đạt 84.6%, so sánh một chút: Claude Opus 4.6 là 68.8%, GPT-5.2 là 52.9%, ngay cả Gemini 3 Pro Preview của chính họ cũng chỉ đạt 31.1%.

Cải thiện rất lớn.

Không chỉ suy luận

Tham vọng của Deep Think rõ ràng không chỉ dừng lại ở suy luận.

不止推理

Trên chuẩn mực Humanity's Last Exam, được mệnh danh là "kỳ thi cuối cùng của nhân loại", Deep Think đã đạt 48.4%, bài kiểm tra này bao gồm những câu hỏi khó nhất trong lĩnh vực toán học, khoa học và kỹ thuật. Claude Opus 4.6 đạt 40.0%, GPT-5.2 là 34.5%.

Về lập trình cũng rất mạnh:

Trên Codeforces, Deep Think đạt Elo 3455, trong khi Gemini 3 Pro Preview là 2512, Claude Opus 4.6 là 2352.

Codeforces

Ngoài ra, trên chuẩn mực MMMU-Pro về hiểu và suy luận đa phương thức, Deep Think cũng dẫn đầu với 81.5%, tuy nhiên sự khác biệt giữa các bên không quá lớn: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Ngoài điểm số, Deep Think còn đạt được thành tích ngang với huy chương vàng trong phần thi viết của kỳ thi Olympic Vật lý và Hóa học năm 2025.

Muốn giải quyết các vấn đề khoa học

Google DeepMind lần này đặc biệt nhấn mạnh rằng, Deep Think sau khi nâng cấp không còn chỉ là một cỗ máy giải bài tập, mà là để giải quyết các vấn đề khoa học và kỹ thuật trong thế giới thực.

科学问题

Họ đã trình bày trường hợp của Wang Lab thuộc Đại học Duke: Các nhà nghiên cứu sử dụng Deep Think để thiết kế vật liệu bán dẫn mới, tối ưu hóa quá trình phát triển tinh thể phức tạp, những tinh thể này là vật liệu tiềm năng cho chất bán dẫn nhiệt độ cao.

Duke案例

机械工程

Và các nhà nghiên cứu trong lĩnh vực kỹ thuật cơ khí sử dụng nó để lặp lại các nguyên mẫu vật lý, giúp tốc độ lặp lại phần cứng đạt đến tốc độ lặp lại phần mềm, điều này có nghĩa là chu kỳ cải tiến nhanh hơn trong các lĩnh vực như thiết bị hỗ trợ.

Cách sử dụng

Chế độ Deep Think sau khi nâng cấp hiện đã bắt đầu được đẩy đến người dùng đăng ký Google AI Ultra trong Gemini App.

如何使用

Đối với các nhà nghiên cứu và nhà phát triển, Google đã mở chương trình truy cập sớm Vertex AI, có thể sử dụng thông qua API.

Vertex AI 早期访问:https://goo.gle/4rMHUlq

Published in Technology

You Might Also Like

📝
Technology

Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng

Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng Ngày 1 tháng 4 năm 2026, Anthropic đã âm...

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mớiTechnology

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới Tôi luôn rất thích triết lý cốt lõi của Obsid...

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm quaTechnology

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm qua

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường tro...

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đếnHealth

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến Năm mới bắt đầu, năm ngoái bạn đã ...

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều nàyHealth

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này Tháng Ba đã qua nửa, kế hoạch giảm...

📝
Technology

Hướng dẫn vận hành ổn định AI Browser 24 giờ

Hướng dẫn vận hành ổn định AI Browser 24 giờ Bài hướng dẫn này giới thiệu cách thiết lập một môi trường AI Browser ổn đị...