Google Diam-diam Meningkatkan Deep Think, ARC-AGI-2 Langsung Mencapai 84.6%

Baru saja, Google DeepMind meningkatkan mode inferensi khusus Gemini 3, Deep Think, dan skornya langsung mendominasi.

Deep Think

Perlu diketahui, ARC-AGI-2 saat ini diakui sebagai tolok ukur terdepan untuk menguji kemampuan inferensi AI, dan sebelumnya tidak ada model yang bisa mendapatkan skor yang sangat bagus di sini.

基准对比

Dan Deep Think yang ditingkatkan meraih 84.6%, sebagai perbandingan: Claude Opus 4.6 adalah 68.8%, GPT-5.2 adalah 52.9%, bahkan Gemini 3 Pro Preview sendiri hanya 31.1%.

Peningkatan yang sangat besar.

Tidak Hanya Inferensi

Ambisi Deep Think jelas tidak hanya terbatas pada inferensi.

不止推理

Pada Humanity's Last Exam, yang disebut sebagai "ujian terakhir manusia", Deep Think meraih 48.4%, tes ini mencakup soal-soal tersulit di bidang matematika, sains, dan teknik. Claude Opus 4.6 mendapat 40.0%, GPT-5.2 adalah 34.5%.

Dalam hal pemrograman juga sangat kuat:

Di Codeforces, Deep Think mencapai Elo 3455, sedangkan Gemini 3 Pro Preview adalah 2512, Claude Opus 4.6 adalah 2352.

Codeforces

Selain itu, pada tolok ukur MMMU-Pro untuk pemahaman dan inferensi multimodal, Deep Think juga memimpin dengan 81.5%, tetapi perbedaannya tidak terlalu besar di sini: Gemini 3 Pro Preview 81.0%, GPT-5.2 79.5%, Claude Opus 4.6 73.9%.

MMMU-Pro

Selain skor, Deep Think juga meraih prestasi setingkat medali emas di bagian ujian tertulis Olimpiade Fisika dan Kimia 2025.

Untuk Menyelesaikan Masalah Ilmiah

Google DeepMind kali ini secara khusus menekankan bahwa Deep Think yang ditingkatkan tidak lagi hanya mesin pemecah soal, tetapi untuk menyelesaikan masalah ilmiah dan teknik di dunia nyata.

科学问题

Mereka menunjukkan contoh dari Wang Lab di Duke University: para peneliti menggunakan Deep Think untuk merancang bahan semikonduktor baru dan mengoptimalkan proses pertumbuhan kristal kompleks, yang merupakan bahan kandidat untuk semikonduktor suhu tinggi.

Duke案例

机械工程

Ada juga peneliti di bidang teknik mesin yang menggunakannya untuk mengulangi prototipe fisik, memungkinkan iterasi perangkat keras mencapai kecepatan iterasi perangkat lunak, yang berarti siklus peningkatan yang lebih cepat di bidang seperti perangkat bantu.

Cara Menggunakan

Mode Deep Think yang ditingkatkan sekarang telah mulai diluncurkan di Gemini App untuk pelanggan yang berlangganan Google AI Ultra.

如何使用

Untuk peneliti dan pengembang, Google membuka program akses awal Vertex AI, yang dapat digunakan melalui API.

Akses awal Vertex AI: https://goo.gle/4rMHUlq

Google Diam-diam Meningkatkan Deep Think, ARC-AGI-2 Langsung Mencapai 84.6%

Google Diam-diam Meningkatkan Deep Think, ARC-AGI-2 Langsung Mencapai 84.6%

Tidak Hanya Inferensi

Untuk Menyelesaikan Masalah Ilmiah

Cara Menggunakan

You Might Also Like

Panduan Modifikasi Claude Code Buddy: Cara Mendapatkan Hewan Peliharaan Legendaris Bersinar

Obsidian Meluncurkan Defuddle, Meningkatkan Obsidian Web Clipper ke Tingkat Baru

OpenAI Tiba-tiba Mengumumkan "Tiga dalam Satu": Penggabungan Browser + Pemrograman + ChatGPT, Mengakui Kesalahan Tahun Lalu

2026, Jangan Lagi Memaksa Diri untuk 'Disiplin'! Lakukan 8 Hal Kecil Ini, Kesehatan Akan Datang Secara Alami

Ibu-Ibu yang Berusaha Menurunkan Berat Badan tetapi Tidak Berhasil, Pasti Terjebak di Sini

Panduan Menjalankan AI Browser 24 Jam Secara Stabil