Google Menaik Taraf Deep Think Secara Senyap, ARC-AGI-2 Terus Mencapai 84.6%
Google Menaik Taraf Deep Think Secara Senyap, ARC-AGI-2 Terus Mencapai 84.6%
Baru-baru ini, Google DeepMind telah menaik taraf mod penaakulan khusus Gemini 3, Deep Think, dan markah terus mendominasi carta.

Perlu diketahui bahawa ARC-AGI-2 kini diiktiraf sebagai penanda aras terdepan untuk menguji keupayaan penaakulan AI, dan sebelum ini tiada model yang dapat memperoleh markah yang sangat baik di atasnya.

Dan Deep Think yang dinaik taraf mencapai 84.6%, sebagai perbandingan: Claude Opus 4.6 ialah 68.8%, GPT-5.2 ialah 52.9%, dan Gemini 3 Pro Preview sendiri hanya 31.1%.
Peningkatan yang besar.
Bukan Sekadar Penaakulan
Cita-cita Deep Think jelas bukan hanya untuk penaakulan.

Pada Humanity's Last Exam, yang dikenali sebagai "peperiksaan terakhir manusia", Deep Think mencapai 48.4%. Ujian ini meliputi masalah yang paling sukar dalam bidang matematik, sains dan kejuruteraan. Claude Opus 4.6 mendapat 40.0%, dan GPT-5.2 ialah 34.5%.
Dari segi pengaturcaraan, ia juga sangat hebat:
Di Codeforces, Deep Think mencapai Elo 3455, manakala Gemini 3 Pro Preview ialah 2512, dan Claude Opus 4.6 ialah 2352.

Selain itu, pada penanda aras MMMU-Pro untuk pemahaman dan penaakulan berbilang mod, Deep Think juga mendahului dengan 81.5%, tetapi jurang antara setiap syarikat tidak begitu besar di sini: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

Selain daripada markah, Deep Think juga mencapai tahap pingat emas dalam bahagian bertulis pertandingan Olimpik fizik dan kimia 2025.
Untuk Menyelesaikan Masalah Saintifik
Google DeepMind kali ini menekankan bahawa Deep Think yang dinaik taraf bukan lagi sekadar mesin penyelesai masalah, tetapi untuk menyelesaikan masalah sains dan kejuruteraan dunia sebenar.

Mereka menunjukkan kes Wang Lab di Universiti Duke: Penyelidik menggunakan Deep Think untuk mereka bentuk bahan semikonduktor baharu dan mengoptimumkan proses pertumbuhan kristal kompleks, yang merupakan bahan calon untuk semikonduktor suhu tinggi.


Terdapat juga penyelidik dalam bidang kejuruteraan mekanikal yang menggunakannya untuk mengulangi prototaip fizikal, membolehkan lelaran perkakasan mencapai kelajuan lelaran perisian, yang bermaksud kitaran penambahbaikan yang lebih pantas dalam bidang seperti peranti bantuan.
Cara Menggunakan
Mod Deep Think yang dinaik taraf kini telah mula ditolak kepada pelanggan langganan Google AI Ultra dalam Gemini App.

Bagi penyelidik dan pembangun, Google telah membuka program akses awal Vertex AI, yang boleh digunakan melalui API.
Vertex AI 早期访问:https://goo.gle/4rMHUlq





