Selepas Menguji MiniMax M2.5, Saya Mula Ragu Sama Ada Perlu Melanggan Claude Lagi...

2/15/2026
4 min read

MiniMax M2.5 telah keluar! Saya terus menyambungkannya ke Claude Code untuk ujian.

Kali ini benar-benar berbeza, laporan rasmi yang dikeluarkan oleh MiniMax sangat memberangsangkan.

SWE-Bench Verified mendapat 80.2%, pengaturcaraan berbilang bahasa Multi-SWE-Bench terus menjadi yang pertama, dan keupayaan carian BrowseComp juga berada pada tahap SOTA 76.3%.

Pengasas OpenClaw, Peter Steinberger, sebelum ini telah mengesyorkan siri model MiniMax dalam beberapa temu bual. Kali ini, apabila M2.5 keluar, dia terus meneruskan siaran:

\Saya meminta untuk mewujudkan platform kerjasama perniagaan KOL, yang memerlukan panel data influencer untuk memaparkan profil peminat dan sebut harga, sistem padanan pintar untuk membolehkan pihak jenama memasukkan keperluan dan AI mengesyorkan KOL yang sesuai, kalendar jadual untuk memaparkan jadual tiga bulan akan datang secara visual, juga memerlukan perpustakaan templat kontrak dan laporan penjejakan data.

Gaya visual harus seperti susun atur kad Instagram ditambah dengan gaya papan pemuka B2B SaaS.

Cara pengendaliannya lebih sistematik daripada kes pertama.

Mula-mula, modul fungsi dipecahkan, dan subsistem seperti panel data, algoritma padanan, komponen kalendar, dan pengurusan dokumen direka secara berasingan.

Kemudian, ia disambungkan secara bersiri di bahagian hadapan dengan susun atur aliran kad, dan logik bahagian belakang dijalankan melalui keseluruhan proses dengan data simulasi.

Menariknya, apabila ia melakukan fungsi padanan pintar, ia akan secara proaktif mereka bentuk versi ringkas algoritma cadangan. Walaupun ia bukan model pembelajaran mesin sebenar, logik berdasarkan padanan label sudah dapat menunjukkan konsep teras.

Keseluruhan projek mengambil masa kira-kira lebih 20 minit untuk dibangunkan. Untuk tahap kerumitan ini, jika anda mencari pasukan pembangunan, ia hampir tidak dapat diselesaikan dalam satu atau dua bulan.

Dan saya mesti katakan, keupayaan ini sangat bernilai bagi usahawan.

Anda mempunyai idea perniagaan dan ingin membuat MVP dengan cepat untuk mengesahkan pasaran. Anda boleh menggunakan kaedah ini untuk membina prototaip produk terlebih dahulu, dan kemudian memutuskan sama ada untuk melabur sumber untuk melakukan pembangunan rasmi.

Kes 3: Platform Pendidikan Dalam Talian Estetika Cina Baharu

Kes ketiga, saya ingin mencuba prestasinya dalam arah kreatif budaya. Jenis keperluan ini bukan sahaja melibatkan pelaksanaan fungsi, tetapi juga melibatkan estetika dan penciptaan suasana, yang sering menjadi kelemahan AI.

Saya meminta untuk membuat laman web untuk platform pendidikan Guoxue dalam talian Shiguang Shuyuan, yang memerlukan estetika Cina baharu. Skema warna menggunakan kecerunan putih krim, dakwat dan merah vermilion, dengan karya kaligrafi atau landskap dakwat Cina di latar belakang, ditambah dengan kesan zarah yang bertaburan. Elemen buku purba seperti skrol buluh dan meterai digabungkan, dan teks disusun secara menegak dalam fon Song. Setiap kotak paparan kursus harus seperti buku yang dijahit benang, dengan video guzheng atau upacara teh dimainkan di latar belakang. Suasana keseluruhan harus elegan dan tenang, seperti merasai teh dan membincangkan Taoisme di dalam bilik belajar.

Semasa pelaksanaan, ia menunjukkan pemahaman tentang simbol budaya.

Selain merealisasikan gaya visual asas, ia juga akan membuat artikel mengenai butiran, seperti menambahkan animasi peralihan pewarna dakwat ke suis halaman, menambahkan label gaya meterai pada kad kursus, dan juga mencetuskan animasi laluan penulisan berus apabila tetikus melayang.

Helah kecil ini memberikan semangat kepada keseluruhan halaman, dan ia bukan lagi timbunan kod yang sejuk.

Hasilnya, saya menghantar demo ini kepada rakan yang melakukan komunikasi budaya, dan reaksi pertamanya ialah bertanya kepada saya syarikat reka bentuk mana yang saya cari.

Apabila saya memberitahunya bahawa ini dilakukan oleh AI, dia tidak percaya sama sekali.

Jadi saya katakan, kelajuan evolusi AI dalam tahap estetik mungkin dipandang rendah. Ia bukan sahaja meniru reka bentuk manusia, tetapi benar-benar memahami konotasi budaya dan ekspresi emosi.

Ringkasan

Selepas menguji kes ini, saya merasakan bahawa keupayaan lapisan pelaksanaan MiniMax M2.5 memang cukup sukar.

Ia boleh memahami keperluan yang kompleks, merancang langkah tugas sendiri, dan kelajuannya sangat keterlaluan. Pegawai mengatakan bahawa kelajuan inferens adalah 3 kali ganda Opus, dan saya merasakan bahawa ini benar selepas ujian.

Jika anda juga sering terbeban dengan perkara remeh lapisan pelaksanaan, saya sangat mengesyorkan anda untuk menguji sendiri. Antara muka API kini telah dibuka, dan perkara utama ialah sama ada ia benar-benar boleh disepadukan ke dalam aliran kerja anda.

Sejujurnya, AI telah berkembang ke tahap ini, ia bukan lagi masalah sama ada ia boleh digunakan, tetapi masalah sama ada ia akan digunakan.Cepat mula, cepat dapat manfaat.

Published in Technology

You Might Also Like