Google Menaik Taraf Deep Think Secara Senyap, ARC-AGI-2 Terus Mencapai 84.6%

Baru-baru ini, Google DeepMind telah menaik taraf mod penaakulan khusus Gemini 3, Deep Think, dan markah terus mendominasi carta.

Deep Think

Perlu diketahui bahawa ARC-AGI-2 kini diiktiraf sebagai penanda aras terdepan untuk menguji keupayaan penaakulan AI, dan sebelum ini tiada model yang dapat memperoleh markah yang sangat baik di atasnya.

基准对比

Dan Deep Think yang dinaik taraf mencapai 84.6%, sebagai perbandingan: Claude Opus 4.6 ialah 68.8%, GPT-5.2 ialah 52.9%, dan Gemini 3 Pro Preview sendiri hanya 31.1%.

Peningkatan yang besar.

Bukan Sekadar Penaakulan

Cita-cita Deep Think jelas bukan hanya untuk penaakulan.

不止推理

Pada Humanity's Last Exam, yang dikenali sebagai "peperiksaan terakhir manusia", Deep Think mencapai 48.4%. Ujian ini meliputi masalah yang paling sukar dalam bidang matematik, sains dan kejuruteraan. Claude Opus 4.6 mendapat 40.0%, dan GPT-5.2 ialah 34.5%.

Dari segi pengaturcaraan, ia juga sangat hebat:

Di Codeforces, Deep Think mencapai Elo 3455, manakala Gemini 3 Pro Preview ialah 2512, dan Claude Opus 4.6 ialah 2352.

Codeforces

Selain itu, pada penanda aras MMMU-Pro untuk pemahaman dan penaakulan berbilang mod, Deep Think juga mendahului dengan 81.5%, tetapi jurang antara setiap syarikat tidak begitu besar di sini: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Selain daripada markah, Deep Think juga mencapai tahap pingat emas dalam bahagian bertulis pertandingan Olimpik fizik dan kimia 2025.

Untuk Menyelesaikan Masalah Saintifik

Google DeepMind kali ini menekankan bahawa Deep Think yang dinaik taraf bukan lagi sekadar mesin penyelesai masalah, tetapi untuk menyelesaikan masalah sains dan kejuruteraan dunia sebenar.

科学问题

Mereka menunjukkan kes Wang Lab di Universiti Duke: Penyelidik menggunakan Deep Think untuk mereka bentuk bahan semikonduktor baharu dan mengoptimumkan proses pertumbuhan kristal kompleks, yang merupakan bahan calon untuk semikonduktor suhu tinggi.

Duke案例

机械工程

Terdapat juga penyelidik dalam bidang kejuruteraan mekanikal yang menggunakannya untuk mengulangi prototaip fizikal, membolehkan lelaran perkakasan mencapai kelajuan lelaran perisian, yang bermaksud kitaran penambahbaikan yang lebih pantas dalam bidang seperti peranti bantuan.

Cara Menggunakan

Mod Deep Think yang dinaik taraf kini telah mula ditolak kepada pelanggan langganan Google AI Ultra dalam Gemini App.

如何使用

Bagi penyelidik dan pembangun, Google telah membuka program akses awal Vertex AI, yang boleh digunakan melalui API.

Vertex AI 早期访问：https://goo.gle/4rMHUlq

Google Menaik Taraf Deep Think Secara Senyap, ARC-AGI-2 Terus Mencapai 84.6%

Google Menaik Taraf Deep Think Secara Senyap, ARC-AGI-2 Terus Mencapai 84.6%

Bukan Sekadar Penaakulan

Untuk Menyelesaikan Masalah Saintifik

Cara Menggunakan

You Might Also Like

Panduan Pengubahsuaian Claude Code Buddy: Cara Mendapatkan Haiwan Peliharaan Legenda Berkilau

Obsidian Melancarkan Defuddle, Meningkatkan Obsidian Web Clipper ke Tahap Baru

OpenAI Tiba-tiba Mengumumkan "Tiga dalam Satu": Penggabungan Pelayar + Pengaturcaraan + ChatGPT, Mengakui Kesilapan Tahun Lepas

2026, Jangan Paksa Diri Sendiri 'Disiplin'! Lakukan 8 Perkara Kecil Ini, Kesihatan Akan Datang Secara Semula Jadi

Ibu-ibu yang berusaha menurunkan berat badan tetapi tidak berhasil, pasti terjebak di sini

AI Browser 24小时稳定运行指南