稀宇 MiniMax M2.5 ülevaade
稀宇 MiniMax M2.5 ülevaade
Lühike järeldus: Juurtega allapoole, kasvuga ülespoole
Põhiolukord
稀宇 eelmise põlvkonna M2.1 puhul olid tehnilised probleemid, kuigi programmeerimise vallas oli märkimisväärne edasiminek, jäi loogiline võimekus alla M2-le. Õnneks on M2.5 põhimõtteliselt tehnilised probleemid lahendanud ja võimekus on naasnud normaalsele rajale. Võrreldes M2-ga on M2.5 edasiminek umbes 17%.
Osa edasiminekust saavutati aga pikemate mõttekäikude ja sügavama lahendusruumi uurimise abil. M2.5 keskmine Token'i tarbimine on kõigi testitavate mudelite seas 6. kohal, peaaegu 2 korda suurem kui konkurendil Sonnet. Õnneks on 稀宇 arvutusvõimsus tagatud ja kulud pole kõrged. Kuigi programmeerimine ei suuda Sonnet'it täielikult asendada, on see igapäevaseks kasutamiseks täiesti sobiv. M2.5 saavutas lõpuks M2.1 eesmärgi.
Loogilised tulemused

*1 Tabelis on võrdluse esiletõstmiseks näidatud ainult osa võrreldavaid mudeleid, mitte täielik järjestus.
*2 Küsimused ja testimismeetodid, vt: Suur keelemudel - loogilise võimekuse horisontaalne võrdlus 26-01 kuu edetabel. Lisatud #56 küsimus.
*3 Täielik edetabel on uuendatud aadressil https://llm2014.github.io/llm_benchmark/
*4 Punane on piiratud kevadfestivali perioodiga, mis tähistab pidulikkust ja millel pole muud tähendust.
Kuna M2.1 on veaga versioon, mille loogiline võimekus on ebanormaalselt madal, siis allpool tehakse ainult M2 ja M2.5 põlvkondadevahelist võrdlust.
Parandused
- Stabiilne järeldamine: M2.5 suudab pikema järeldusprotsessi jooksul säilitada esialgseid piiranguid ja konteksti detaile, seega on mõnedel mitte eriti rasketele, kuid "keskendumist" nõudvatel küsimustel M2.5 skoor märkimisväärselt paranenud. Näiteks #4 Rubiku kuubiku pööramine, M2.5 on maailmas 8. mudel, mis sai maksimumpunktid. Kuid sellistes küsimustes suudavad Põhja-Ameerika kolm suurt stabiilselt maksimumpunkte saada, samas kui M2.5 suudab ainult väikese tõenäosusega üks kord õigesti vastata, mis näitab selget erinevust.
- Programmeerimine: Nagu eespool mainitud, ei suuda M2.5 Sonnet'it igakülgselt asendada, peamiselt programmeerimise teadmiste hulga piiratuse tõttu. Olukordades, mis nõuavad kogemusi, oskusi, versiooni API erinevusi jne, on M2.5-l ilma vihjeteta raske probleeme ise tuvastada ja tavaliselt kulub mitu vooru, et probleemi järk-järgult kitsendada. Kuid see on juba suur edasiminek võrreldes M2-ga. C-projekti testis jäävad enamik Hiina mudeleid esimese 2 vooru taha, samas kui M2.5 on esimene Hiina mudel, mis murdis läbi 8. vooru. Kuigi M2.5-l on ilmsed puudused OpenGL-i kasutamises ja ruumilises kujutlusvõimes, saab see koos optimeeritud Agent-võimekusega pidevalt proovida ja vigu teha, et läheneda õigele lahendusele. Samuti on väärib märkimist, et M2.5 on programmeerimistööde tegemisel vähem "jutukas", väljastades lühikese kokkuvõtte peaaegu ainult pärast töö lõpetamist, mitte ei väljasta mõtteid vahepeal. Muud projektid on veel testimisel ja neid uuendatakse hiljem.
- Arvutusvõime: M2 arvutusvõime ei ole suurepärane ja M2.1 on veelgi halvem, M2.5 on madalalt lähtepunktilt teinud tõhusaid parandusi. Enamiku lihtsate arvutuste puhul on M2.5 väikese tõenäosusega ülitäpne, enamasti esineb endiselt arvutusvigu, suuri vigu ja valemite mittemõistmist, seega on selles osas koolitus endiselt ebapiisav. Agent-põhise mudelina ei ole arvutusvõime hädavajalik, Claude seeria arvutusvõime on samuti pikka aega maha jäänud.
Puudused
- Juhiste järgimine: Võrreldes M2-ga ei ole juhiste järgimise paranemine suur, mõnede lihtsate küsimuste puhul on maksimumpunktide saamise tõenäosus suurem, kuid see ei ole ka stabiilne. Esineb juhuslikku juhiste hülgamist või juhiste muutmist, kuid mõttekäigu sisu vaadates on mudel kõiki juhiseid märganud, kuid lõplik väljund on probleemne. Üldine jõudlus on esimese ešeloni teistest mudelitest maha jäänud. Programmeerimisel esineb ka kodeerimisnõuete ja projekti spetsifikatsioonide eiramist, näiteks C-projektis on määratud, et koordinaatide Z-telg on ülespoole, kuid M2.5 muutis selle omavoliliselt Y-teljeks, et parandada teist viga. Igapäevasel kasutamisel on vaja täiendavat tähelepanu kontrollile.
- Hallutsinatsioonid: M2.5 hallutsinatsioonide tase ei ole M2-ga võrreldes oluliselt muutunud, enamiku kontekstiga seotud küsimuste puhul on mõlema maksimaalsed punktid samad. Isegi #43 sihtnumbrite arvutamise küsimuses teeb M2.5 mõningaid madala taseme probleeme, mis esinevad ainult teise ešeloni mudelitel, näiteks numbrite korduv kasutamine ja numbrite puudumine.
Küberajaloolane ütleb
Hiina tootjad on kulutanud pool aastat, et uurida, kuidas programmeerimismudeleid tegelikult teha. Esimesed mudelid, mis väidetavalt asendasid Sonnet'it, nägid välja sarnased ainult "ühe lause" genereerimise efektis. Nende sisemine koodi korraldus, inseneritöö ja mis veelgi olulisem, mitme vooru iteratsioonivõime on palju madalamad. See on ka põhjus, miks Hiina programmeerijad üldiselt ei usalda Hiina mudeleid ja eelistavad kasutada Claude'i, riskides konto blokeerimisega.
MiniMax M2 ja M2.1 on esialgu mainet muutnud ning M2.5 põlvkond on viinud Hiina mudelite programmeerimise kasutatavuse suure sammu edasi. Tõepoolest, M2.5 ja ametlikult deklareeritud Opus taseme vahel on endiselt igakülgne erinevus, kuid seni, kuni keegi on valmis usaldama ja kasutama, arenevad asjad paremuse poole. Sellest vaatenurgast on M2.5 tõepoolest kindel samm, mille 稀宇 on võtnud võidu eesmärgi suunas.





