Ulasan MiniMax M2.5 dari 稀宇

Kesimpulan singkat: Berakar ke bawah, tumbuh ke atas

Kondisi Dasar

MiniMax M2.1 generasi sebelumnya dari 稀宇, karena masalah teknis, meskipun ada kemajuan signifikan dalam pemrograman, kemampuan logikanya tertinggal dari M2. Untungnya, M2.5 pada dasarnya telah memecahkan masalah teknis, dan kemampuannya kembali ke jalur normal. Dibandingkan dengan M2, peningkatan M2.5 sekitar 17%.

Namun, sebagian peningkatan diperoleh dengan rantai pemikiran yang lebih panjang dan eksplorasi ruang solusi yang lebih dalam. Konsumsi Token rata-rata M2.5 berada di peringkat ke-6 tertinggi di antara semua model yang diuji, hampir 2 kali lipat dari lawannya, Sonnet. Untungnya, daya komputasi 稀宇 terjamin, dan biayanya tidak tinggi. Meskipun pemrograman tidak dapat sepenuhnya menggantikan Sonnet tanpa cela, namun sepenuhnya dapat digunakan untuk penggunaan sehari-hari. M2.5 akhirnya mencapai tujuan yang ingin dicapai oleh M2.1.

Skor Logika

Tabel Skor Logika

*1 Tabel hanya menampilkan sebagian model yang dapat dibandingkan untuk menyoroti hubungan perbandingan, bukan urutan lengkap.

*2 Untuk pertanyaan dan metode pengujian, lihat: Evaluasi Kemampuan Logika Model Bahasa Besar - Peringkat Bulanan 26-01. Soal #56 ditambahkan.

*3 Daftar lengkap diperbarui di https://llm2014.github.io/llm_benchmark/

*4 Warna merah terbatas selama Festival Musim Semi, yang menunjukkan perayaan dan tidak memiliki arti lain.

Karena M2.1 adalah versi dengan bug dan kemampuan logika yang sangat rendah, perbandingan lintas generasi hanya akan dilakukan antara M2 dan M2.5 di bawah ini.

Peningkatan

Inferensi Stabil: M2.5 dapat mempertahankan batasan awal dan detail konteks selama proses inferensi yang lebih panjang. Oleh karena itu, beberapa masalah yang tidak terlalu sulit tetapi membutuhkan "fokus", skor M2.5 meningkat secara signifikan. Misalnya, #4 Rotasi Kubus Rubik, M2.5 adalah model ke-8 di dunia yang mendapatkan skor penuh. Namun, sebagian besar dari Tiga Besar Amerika Utara dapat secara stabil mendapatkan skor penuh untuk masalah seperti ini, sementara M2.5 hanya dapat melakukannya sekali dengan probabilitas kecil, menunjukkan perbedaan yang jelas.
Pemrograman: Seperti yang disebutkan sebelumnya, M2.5 tidak dapat sepenuhnya menggantikan Sonnet, terutama karena terbatasnya jumlah pengetahuan pemrograman. Dalam situasi yang membutuhkan pengalaman, keterampilan, perbedaan API versi, dll., M2.5 sulit untuk menemukan masalah sendiri tanpa petunjuk, dan biasanya membutuhkan beberapa putaran untuk secara bertahap mempersempit masalah. Namun, ini merupakan peningkatan besar dibandingkan dengan M2. Dalam pengujian proyek C, sebagian besar model domestik akan macet di 2 putaran pertama, sementara M2.5 menjadi model domestik pertama yang menembus ke putaran ke-8. Meskipun M2.5 memiliki kekurangan yang jelas dalam penggunaan OpenGL dan imajinasi spasial, dengan kemampuan Agent yang dioptimalkan, ia dapat terus mencoba dan melakukan kesalahan, dan menyatu ke solusi yang benar. Selain itu, perlu dicatat bahwa ketika M2.5 bekerja pada pemrograman, ia lebih sedikit "berbicara", dan hampir hanya mengeluarkan ringkasan singkat setelah menyelesaikan pekerjaan, dan tidak mengeluarkan pemikiran di tengah jalan. Proyek lain masih dalam pengujian dan akan diperbarui nanti.
Kemampuan Komputasi: Kemampuan komputasi M2 tidak dapat dianggap sangat baik, dan M2.1 bahkan mengalami kemunduran. M2.5 telah membuat peningkatan yang efektif pada titik awal yang rendah. Dalam sebagian besar perhitungan sederhana, M2.5 memiliki probabilitas kecil untuk akurasi tinggi, tetapi dalam banyak kasus masih ada kesalahan perhitungan, kesalahan besar, dan masalah tidak memahami rumus. Pelatihan dalam aspek ini masih kurang. Sebagai model yang digerakkan oleh Agent, kemampuan komputasi bukanlah suatu keharusan, dan perhitungan seri Claude juga telah lama tertinggal.

Kekurangan

Kepatuhan Instruksi: Dibandingkan dengan M2, peningkatan kepatuhan instruksi tidak signifikan. Probabilitas mendapatkan skor penuh pada beberapa masalah sederhana lebih tinggi, tetapi juga tidak stabil. Ada kasus di mana instruksi dibuang secara acak atau diubah, tetapi mengamati konten rantai pemikiran, model memperhatikan semua instruksi, dan masalah muncul pada output akhir. Kinerja keseluruhan tertinggal dari model lain di eselon pertama. Dalam pemrograman, ada juga kasus mengabaikan persyaratan pengkodean dan spesifikasi proyek. Misalnya, proyek C menetapkan bahwa sumbu Z mengarah ke atas, tetapi M2.5 mengubahnya menjadi sumbu Y tanpa izin untuk memperbaiki Bug lain. Perhatian ekstra diperlukan dalam penggunaan sehari-hari.
Halusinasi: Tingkat halusinasi M2.5 tidak mengalami perubahan signifikan dibandingkan dengan M2. Dalam sebagian besar masalah terkait konteks, skor batas keduanya konsisten. Bahkan pada masalah perhitungan jumlah target #43, M2.5 masih akan membuat kesalahan tingkat rendah seperti menggunakan angka berulang kali dan menghilangkan angka yang hanya akan dilakukan oleh model eselon kedua.

Sejarawan Siber Berkata

Pabrikan domestik telah menghabiskan lebih dari setengah tahun untuk mengeksplorasi bagaimana seharusnya model pemrograman dilakukan. Sebagian besar model pertama yang disebut-sebut sebagai pengganti Sonnet hanya terlihat mirip dalam efek pembuatan "satu kalimat". Organisasi kode internal, rekayasa, dan yang lebih penting, kemampuan iterasi multi-putaran jauh lebih rendah. Hal ini juga menyebabkan programmer domestik umumnya tidak mempercayai model domestik dan lebih memilih menggunakan Claude meskipun berisiko diblokir.

Dengan MiniMax M2 dan M2.1 yang pada awalnya membalikkan opini publik, generasi M2.5 ini mendorong kegunaan pemrograman model domestik selangkah lebih maju. Memang, M2.5 masih memiliki kesenjangan komprehensif dengan tingkat Opus yang diklaim secara resmi, tetapi selama ada orang yang bersedia mempercayai dan menggunakannya, segala sesuatunya akan bergerak ke arah yang lebih baik. Dari sudut pandang ini, M2.5 memang merupakan langkah solid yang diambil oleh 稀宇 menuju tujuan kemenangan.

Ulasan MiniMax M2.5 dari 稀宇

Ulasan MiniMax M2.5 dari 稀宇

Kondisi Dasar

Skor Logika

Peningkatan

Kekurangan

Sejarawan Siber Berkata

You Might Also Like

Panduan Modifikasi Claude Code Buddy: Cara Mendapatkan Hewan Peliharaan Legendaris Bersinar

Obsidian Meluncurkan Defuddle, Meningkatkan Obsidian Web Clipper ke Tingkat Baru

OpenAI Tiba-tiba Mengumumkan "Tiga dalam Satu": Penggabungan Browser + Pemrograman + ChatGPT, Mengakui Kesalahan Tahun Lalu

2026, Jangan Lagi Memaksa Diri untuk 'Disiplin'! Lakukan 8 Hal Kecil Ini, Kesehatan Akan Datang Secara Alami

Ibu-Ibu yang Berusaha Menurunkan Berat Badan tetapi Tidak Berhasil, Pasti Terjebak di Sini

Panduan Menjalankan AI Browser 24 Jam Secara Stabil