Ulasan MiniMax M2.5 oleh 稀宇

Kesimpulan ringkas: Berakar ke bawah, tumbuh ke atas

Keadaan Asas

M2.1 generasi sebelumnya oleh 稀宇, disebabkan masalah teknikal, walaupun terdapat kemajuan yang ketara dalam pengaturcaraan, keupayaan logiknya ketinggalan berbanding M2. Mujurlah, M2.5 pada dasarnya menyelesaikan masalah teknikal dan keupayaan kembali ke landasan yang betul. Berbanding dengan M2, peningkatan M2.5 adalah kira-kira 17%.

Walau bagaimanapun, sebahagian daripada peningkatan itu dicapai melalui rantaian pemikiran yang lebih panjang dan penerokaan ruang penyelesaian yang lebih mendalam. Penggunaan Token purata M2.5 berada di kedudukan ke-6 tertinggi dalam semua model yang diuji, hampir 2 kali ganda berbanding pesaingnya, Sonnet. Mujurlah, kuasa pengkomputeran 稀宇 terjamin dan kosnya tidak tinggi. Walaupun pengaturcaraan tidak dapat menggantikan Sonnet sepenuhnya, ia boleh digunakan sepenuhnya untuk kegunaan harian. M2.5 akhirnya mencapai matlamat yang ingin dicapai oleh M2.1.

Keputusan Logik

Jadual Keputusan Logik

*1 Jadual hanya memaparkan sebahagian daripada model yang boleh dibandingkan untuk menyerlahkan hubungan perbandingan, bukan susunan lengkap.

*2 Untuk soalan dan kaedah ujian, lihat: Penilaian Merentas Keupayaan Logik Model Bahasa Besar - Carta Bulanan Januari 26. Soalan #56 baharu ditambah.

*3 Senarai penuh dikemas kini di https://llm2014.github.io/llm_benchmark/

*4 Warna merah adalah terhad semasa Festival Musim Bunga, menunjukkan perayaan dan tidak mempunyai makna lain.

Oleh kerana M2.1 ialah versi dengan pepijat dan keupayaan logik yang sangat rendah, perbandingan antara generasi hanya akan dibuat antara M2 dan M2.5 dalam teks berikut.

Penambahbaikan

Inferens Stabil: M2.5 boleh mengekalkan kekangan awal dan butiran konteks dalam proses inferens yang lebih panjang. Oleh itu, beberapa soalan yang tidak terlalu sukar tetapi memerlukan "tumpuan", skor M2.5 meningkat dengan ketara. Contohnya, #4 putaran Rubik's Cube, M2.5 ialah model ke-8 di dunia yang mendapat markah penuh. Walau bagaimanapun, model daripada Tiga Besar Amerika Utara boleh mendapat markah penuh secara stabil dalam jenis soalan ini, manakala M2.5 hanya boleh mendapat markah penuh sekali dengan kebarangkalian yang rendah, menunjukkan jurang yang jelas.
Pengaturcaraan: Seperti yang dinyatakan sebelum ini, M2.5 tidak boleh menggantikan Sonnet sepenuhnya, terutamanya kerana ia dihadkan oleh jumlah pengetahuan pengaturcaraan. Dalam situasi yang memerlukan pengalaman, kemahiran, perbezaan API versi, dsb., M2.5 sukar untuk mencari masalah sendiri tanpa petunjuk dan biasanya memerlukan berbilang pusingan untuk mengecilkan masalah secara beransur-ansur. Walau bagaimanapun, ini merupakan kemajuan yang besar berbanding M2. Dalam ujian kejuruteraan C, kebanyakan model domestik akan tersekat dalam 2 pusingan pertama, manakala M2.5 menjadi model domestik pertama yang menembusi pusingan ke-8. Walaupun M2.5 mempunyai kekurangan yang jelas dalam penggunaan OpenGL dan imaginasi ruang, dengan keupayaan Agent yang dioptimumkan, ia boleh terus mencuba dan melakukan kesilapan, dan menumpu kepada penyelesaian yang betul. Selain itu, perlu diingatkan bahawa M2.5 "bercakap" kurang semasa kerja pengaturcaraan, dan hanya mengeluarkan ringkasan ringkas selepas menyelesaikan kerja. Kejuruteraan lain masih dalam ujian dan akan dikemas kini kemudian.
Keupayaan Pengiraan: Keupayaan pengiraan M2 tidak dianggap cemerlang, dan M2.1 lebih teruk. M2.5 telah membuat penambahbaikan yang berkesan pada titik permulaan yang rendah. Dalam kebanyakan pengiraan mudah, M2.5 mempunyai kebarangkalian rendah untuk ketepatan tinggi, tetapi dalam kebanyakan kes, masih terdapat masalah pengiraan yang salah, ralat yang besar dan tidak memahami formula. Latihan dalam aspek ini masih tidak mencukupi. Sebagai model yang dipacu oleh Agent, keupayaan pengiraan bukanlah keperluan yang mendesak, dan pengiraan siri Claude juga telah lama ketinggalan.

Kekurangan

Pematuhan Arahan: Berbanding dengan M2, peningkatan dalam pematuhan arahan tidak ketara. Kebarangkalian untuk mendapat markah penuh pada beberapa soalan mudah adalah lebih tinggi, tetapi ia juga tidak stabil. Terdapat kes di mana arahan digugurkan atau diubah suai secara rawak, tetapi dengan memerhatikan kandungan rantaian pemikiran, model itu telah mengambil perhatian tentang semua arahan, dan masalah timbul dalam output akhir. Prestasi keseluruhan ketinggalan berbanding model lain dalam peringkat pertama. Dalam pengaturcaraan, terdapat juga kes di mana keperluan pengekodan dan spesifikasi projek diabaikan. Contohnya, dalam kejuruteraan C, paksi Z ditetapkan untuk menghala ke atas, tetapi M2.5 menukarnya kepada paksi Y tanpa kebenaran untuk membetulkan pepijat lain. Perhatian tambahan diperlukan untuk kawalan dalam penggunaan harian.
Halusinasi: Tahap halusinasi M2.5 tidak berubah dengan ketara berbanding M2. Dalam kebanyakan soalan berkaitan konteks, kedua-duanya mempunyai had skor yang sama. Malah pada soalan pengiraan nombor sasaran #43, M2.5 akan melakukan beberapa masalah asas seperti menggunakan nombor berulang kali dan kehilangan nombor yang hanya akan dilakukan oleh model peringkat kedua.

Kata-kata Ahli Sejarah Siber

Pengeluar domestik telah menghabiskan lebih daripada setengah tahun untuk meneroka cara membuat model pengaturcaraan. Kumpulan pertama model yang dikatakan sebagai pengganti Sonnet kebanyakannya hanya kelihatan serupa dalam kesan penjanaan "satu ayat". Organisasi kod dalaman, kejuruteraan dan, yang lebih penting, keupayaan lelaran berbilang jauh lebih rendah. Ini juga menyebabkan pengaturcara domestik secara amnya tidak mempercayai model domestik dan lebih suka menggunakan Claude walaupun menghadapi risiko akaun disekat.

Dengan MiniMax M2 dan M2.1 pada mulanya mengubah persepsi, generasi M2.5 ini telah memajukan kebolehgunaan pengaturcaraan model domestik selangkah ke hadapan. Sesungguhnya, M2.5 masih mempunyai jurang yang menyeluruh dengan tahap Opus yang diisytiharkan secara rasmi, tetapi selagi ada orang yang sanggup mempercayai dan menggunakannya, keadaan akan bertambah baik. Dari sudut pandangan ini, M2.5 sememangnya merupakan langkah yang kukuh yang diambil oleh 稀宇 ke arah matlamat kemenangan.

Ulasan MiniMax M2.5 oleh 稀宇

Ulasan MiniMax M2.5 oleh 稀宇

Keadaan Asas

Keputusan Logik

Penambahbaikan

Kekurangan

Kata-kata Ahli Sejarah Siber

You Might Also Like

Panduan Pengubahsuaian Claude Code Buddy: Cara Mendapatkan Haiwan Peliharaan Legenda Berkilau

Obsidian Melancarkan Defuddle, Meningkatkan Obsidian Web Clipper ke Tahap Baru

OpenAI Tiba-tiba Mengumumkan "Tiga dalam Satu": Penggabungan Pelayar + Pengaturcaraan + ChatGPT, Mengakui Kesilapan Tahun Lepas

2026, Jangan Paksa Diri Sendiri 'Disiplin'! Lakukan 8 Perkara Kecil Ini, Kesihatan Akan Datang Secara Semula Jadi

Ibu-ibu yang berusaha menurunkan berat badan tetapi tidak berhasil, pasti terjebak di sini

AI Browser 24小时稳定运行指南