Pagsusuri sa 稀宇 MiniMax M2.5

Maikling konklusyon: Nag-ugat pababa, lumalago pataas

Batayang Sitwasyon

Ang nakaraang henerasyon ng 稀宇 na M2.1, dahil sa mga teknikal na problema, bagama't may malaking pag-unlad sa programming, ang lohikal na kakayahan ay nahuhuli sa M2. Mabuti na lang, ang M2.5 ay karaniwang nalutas ang mga teknikal na problema, at ang kakayahan ay bumalik sa normal na landas. Kung ikukumpara sa M2, ang pag-unlad ng M2.5 ay humigit-kumulang 17%.

Gayunpaman, ang ilang bahagi ng pag-unlad ay nakamit sa pamamagitan ng mas mahabang chain ng pag-iisip at mas malalim na paggalugad ng space ng solusyon. Ang average na pagkonsumo ng Token ng M2.5 ay ika-6 na pinakamataas sa lahat ng mga modelong sinusuri, halos doble ng kalaban na Sonnet. Mabuti na lang, ang computing power ng 稀宇 ay garantisado, at ang gastos ay hindi mataas. Bagama't hindi nito kayang ganap na palitan ang Sonnet sa programming, ganap na itong magagamit para sa pang-araw-araw na paggamit. Sa huli, nakamit ng M2.5 ang layunin na gustong makamit ng M2.1.

Mga Resulta sa Lohika

Talahanayan ng mga resulta sa lohika

*1 Upang bigyang-diin ang paghahambing, ang talahanayan ay nagpapakita lamang ng ilang maiihambing na modelo, hindi isang kumpletong pag-uuri.

*2 Para sa mga tanong at paraan ng pagsubok, tingnan ang: Pahalang na Pagsusuri ng Kakayahan sa Lohika ng Malalaking Modelo ng Wika - Buwanang Listahan ng Enero 26. Idinagdag ang #56 na tanong.

*3 Ang kumpletong listahan ay ina-update sa https://llm2014.github.io/llm_benchmark/

*4 Ang pula ay limitado sa panahon ng Spring Festival, na nagpapahiwatig ng pagdiriwang, at walang ibang kahulugan.

Dahil ang M2.1 ay isang bersyon na may Bug at may abnormal na mababang lohikal na kakayahan, ang sumusunod na teksto ay gagawa lamang ng cross-generational na paghahambing sa pagitan ng M2 at M2.5.

Mga Pagpapabuti

Matatag na Pangangatwiran: Ang M2.5 ay maaaring mapanatili ang mga paunang paghihigpit at mga detalye ng konteksto sa mas mahabang proseso ng pangangatwiran, kaya ang ilang mga problema na hindi masyadong mahirap ngunit nangangailangan ng "pokus", ang M2.5 ay nakakuha ng makabuluhang pagtaas sa mga marka. Halimbawa, sa #4 Rubik's Cube rotation, ang M2.5 ay ang ika-8 modelo sa mundo na nakakuha ng perpektong marka. Ngunit para sa mga ganitong uri ng problema, ang Big Three ng North America ay karaniwang makakakuha ng matatag na perpektong marka, habang ang M2.5 ay maaari lamang makakuha ng maliit na posibilidad na tama nang isang beses, na may malinaw na pagkakaiba.
Programming: Gaya ng nabanggit kanina, hindi kayang ganap na palitan ng M2.5 ang Sonnet, pangunahin dahil limitado ito sa dami ng kaalaman sa programming. Sa mga pagkakataon na nangangailangan ng karanasan, kasanayan, mga pagkakaiba sa bersyon ng API, atbp., mahirap para sa M2.5 na matuklasan ang mga problema sa sarili nitong walang prompt, at karaniwang nangangailangan ng maraming round upang unti-unting paliitin ang problema. Ngunit ito ay isang malaking pag-unlad na kumpara sa M2. Sa pagsubok sa C project, karamihan sa mga domestic model ay natigil sa unang 2 round, habang ang M2.5 ay naging unang domestic model na nakalusot sa ika-8 round. Bagama't ang M2.5 ay may malinaw na mga kakulangan sa paggamit ng OpenGL at spatial na imahinasyon, sa pamamagitan ng pagtutugma sa na-optimize na kakayahan ng Agent, maaari itong patuloy na magsubok at magkamali, at mag-converge sa tamang solusyon. Bilang karagdagan, mahalagang tandaan na kapag nagtatrabaho sa programming, ang M2.5 ay mas "tahimik", at halos naglalabas lamang ito ng maikling buod pagkatapos makumpleto ang gawain, at hindi naglalabas ng mga ideya sa gitna. Ang iba pang mga proyekto ay sinusuri pa rin at ia-update sa ibang pagkakataon.
Kakayahan sa Pagkalkula: Ang kakayahan sa pagkalkula ng M2 ay hindi maituturing na mahusay, at ang M2.1 ay mas lumala pa. Ang M2.5 ay gumawa ng epektibong pagpapabuti sa isang mababang panimulang punto. Sa karamihan ng mga simpleng kalkulasyon, ang M2.5 ay may maliit na posibilidad ng mataas na katumpakan, ngunit sa karamihan ng mga kaso, mayroon pa ring mga pagkakamali sa pagkalkula, malalaking pagkakamali, at hindi nauunawaan ang mga formula. Ang pagsasanay sa aspetong ito ay hindi pa rin sapat. Bilang isang modelo na hinihimok ng Agent, ang kakayahan sa pagkalkula ay hindi isang pangangailangan, at ang pagkalkula ng serye ng Claude ay matagal nang nahuhuli.

Mga Kakulangan

Pagsunod sa Utos: Kung ikukumpara sa M2, ang pagtaas sa pagsunod sa utos ay hindi malaki. Ang pagkuha ng perpektong marka sa ilang mga simpleng problema ay mas malamang, ngunit hindi rin ito matatag. May mga kaso ng random na pagtatapon ng mga utos o pagbabago ng mga utos, ngunit sa pagmamasid sa nilalaman ng chain ng pag-iisip, napansin ng modelo ang lahat ng mga utos, at nagkaroon ng mga problema sa panghuling output. Ang pangkalahatang pagganap ay nahuhuli sa iba pang mga modelo sa unang baitang. Sa programming, mayroon ding mga kaso ng pagwawalang-bahala sa mga kinakailangan sa pag-encode at mga pamantayan ng proyekto. Halimbawa, sa C project, tinukoy na ang Z-axis ay nakaharap pataas, ngunit ang M2.5 ay binago ito sa Y-axis nang walang pahintulot upang ayusin ang isa pang Bug. Kailangan ng karagdagang pag-iingat sa pang-araw-araw na paggamit.
Halusinasyon: Ang antas ng halusinasyon ng M2.5 ay walang makabuluhang pagbabago kumpara sa M2. Para sa karamihan ng mga problemang nauugnay sa konteksto, ang limitasyon ng mga marka ng dalawa ay pareho. Kahit na sa #43 problema sa pagkalkula ng target na numero, ang M2.5 ay gagawa pa rin ng ilang mga mababang antas na problema na lilitaw lamang sa mga modelo ng pangalawang baitang, tulad ng paulit-ulit na paggamit ng mga numero at pagkawala ng mga numero.

Sabi ng Cyber Historian

Ginugol ng mga domestic manufacturer ang halos kalahating taon sa paggalugad kung paano dapat gawin ang mga modelo ng programming. Karamihan sa mga unang batch ng mga modelo na nag-aangking kapalit ng Sonnet ay mukhang malapit lamang sa epekto ng pagbuo ng "isang pangungusap". Ang panloob na organisasyon ng code, engineering, at mas mahalaga, ang kakayahan sa multi-round na pag-ulit ay malayo sa pagiging maihahambing. Dahil dito, ang mga domestic programmer ay karaniwang hindi nagtitiwala sa mga domestic model, at mas gugustuhin nilang gamitin ang Claude kahit na may panganib na ma-ban.

Sa pag-ikot ng MiniMax M2 at M2.1 sa opinyon ng publiko, ang henerasyon ng M2.5 ay nagtulak sa pagiging magagamit ng domestic programming nang isang malaking hakbang pasulong. Sa katunayan, mayroon pa ring komprehensibong agwat sa pagitan ng M2.5 at ng antas ng Opus na inaangkin ng opisyal, ngunit hangga't may gustong magtiwala at gumamit nito, ang mga bagay ay pupunta sa mas mahusay na direksyon. Sa ganitong pananaw, ang M2.5 ay talagang isang matatag na hakbang na ginawa ng 稀宇 patungo sa layunin ng tagumpay.