稀宇 MiniMax M2.5 Ocena

Kratek zaključek: Spuščanje korenin navzdol, rast navzgor

Osnovne informacije

Prejšnja generacija 稀宇 M2.1 je zaradi tehničnih težav, čeprav je dosegla pomemben napredek na področju programiranja, zaostajala za M2 v logičnih sposobnostih. Na srečo je M2.5 v bistvu rešil tehnične težave in se vrnil na normalno raven zmogljivosti. V primerjavi z M2 je napredek M2.5 približno 17 %.

Vendar pa je bil del napredka dosežen z daljšimi verigami razmišljanja in globljim raziskovanjem prostora rešitev. Povprečna poraba žetonov (Token) M2.5 je na 6. mestu med vsemi testiranimi modeli, kar je skoraj dvakrat več kot pri tekmecu Sonnet. Na srečo ima 稀宇 zagotovljeno računalniško moč in nizke stroške. Čeprav programiranje ne more popolnoma nadomestiti Sonnet, je za vsakodnevno uporabo popolnoma uporabno. M2.5 je končno dosegel cilj, ki si ga je zastavil M2.1.

Logični rezultati

Tabela logičnih rezultatov

*1 Tabela prikazuje samo del primerljivih modelov, da bi poudarila primerjalno razmerje, in ni popolna razvrstitev.

*2 Za vprašanja in način testiranja glejte: Veliki jezikovni model - horizontalna primerjava logičnih sposobnosti, mesečna lestvica za januar 2026. Dodano vprašanje #56.

*3 Popolna lestvica je posodobljena na https://llm2014.github.io/llm_benchmark/

*4 Rdeča barva je omejena na obdobje kitajskega novega leta, kar pomeni praznovanje in nima drugega pomena.

Ker je M2.1 različica z napako (Bug) in izjemno nizko logično sposobnostjo, bo naslednje besedilo primerjalo samo M2 in M2.5 med generacijami.

Izboljšave

Stabilno sklepanje: M2.5 lahko ohranja začetne omejitve in podrobnosti konteksta v daljših procesih sklepanja, zato se je rezultat M2.5 znatno izboljšal pri nekaterih nalogah, ki niso zelo težke, vendar zahtevajo "osredotočenost". Na primer, pri #4 rotaciji Rubikove kocke je M2.5 osmi model na svetu, ki je dosegel polno število točk. Vendar pa lahko večina severnoameriških treh velikih podjetij stabilno doseže polno število točk, medtem ko lahko M2.5 to stori le z majhno verjetnostjo enkrat, kar kaže na očitno razliko.
Programiranje: Kot je navedeno zgoraj, M2.5 ne more v celoti nadomestiti Sonnet, predvsem zaradi omejenega znanja programiranja. V primerih, ki zahtevajo izkušnje, spretnosti, različice API-jev itd., M2.5 težko sam odkrije težave brez namigov, običajno pa potrebuje več krogov, da postopoma zmanjša težavo. Vendar je to že velik napredek v primerjavi z M2. V testiranju C projektov se večina kitajskih modelov zatakne v prvih dveh krogih, medtem ko je M2.5 postal prvi kitajski model, ki je prebil do osmega kroga. Čeprav ima M2.5 očitne pomanjkljivosti pri uporabi OpenGL in prostorski domišljiji, se lahko v kombinaciji z optimiziranimi sposobnostmi Agent nenehno preizkuša in konvergira k pravilni rešitvi. Poleg tega je treba opozoriti, da M2.5 pri programiranju "govori" manj in skoraj samo po končanem delu poda kratek povzetek, ne pa da bi med delom podajal ideje. Drugi projekti so še v testiranju in bodo posodobljeni pozneje.
Računska moč: Računska moč M2 ni izjemna, M2.1 pa je naredil korak nazaj. M2.5 je naredil učinkovite izboljšave na nizki izhodiščni točki. Pri večini preprostih izračunov ima M2.5 majhno verjetnost visoke natančnosti, v večini primerov pa še vedno obstajajo težave z napačnimi izračuni, velikimi napakami in nerazumevanjem formul. Usposabljanje na tem področju je še vedno nezadostno. Kot model, ki ga poganja Agent, računska moč ni nujna, računska moč serije Claude pa že dolgo zaostaja.

Pomanjkljivosti

Upoštevanje navodil: V primerjavi z M2 se obseg izboljšav pri upoštevanju navodil ni bistveno povečal. Verjetnost, da bo dobil polno število točk pri nekaterih preprostih vprašanjih, je večja, vendar tudi ni stabilna. Obstajajo primeri naključnega zavračanja ali spreminjanja navodil, vendar ob opazovanju vsebine verige razmišljanja model opazi vsa navodila, vendar se na koncu pojavijo težave pri izhodu. Splošna zmogljivost zaostaja za drugimi modeli prve stopnje. Pri programiranju se pojavljajo tudi primeri ignoriranja zahtev glede kodiranja in projektnih specifikacij, na primer v projektu C je določeno, da je os Z usmerjena navzgor, vendar jo je M2.5 samovoljno spremenil v os Y, da bi popravil drugo napako (Bug). Pri vsakodnevni uporabi je treba biti dodatno pozoren na nadzor.
Halucinacije: Raven halucinacij M2.5 se ni bistveno spremenila v primerjavi z M2. Pri večini vprašanj, povezanih s kontekstom, sta mejna rezultata enaka. Celo pri #43 vprašanju o izračunu ciljnega števila M2.5 še vedno dela nekatere osnovne napake, ki se pojavljajo pri modelih druge stopnje, kot je večkratna uporaba številk ali izpuščanje številk.

Sajberski zgodovinar pravi

Domači proizvajalci so porabili več kot pol leta za raziskovanje, kako naj se programski modeli sploh izdelujejo. Najzgodnejši modeli, ki naj bi bili enakovredni Sonnetu, so bili videti podobni le pri učinku ustvarjanja "enega stavka". Njihova notranja organizacija kode, inženiring in, kar je še pomembneje, sposobnost večkratne iteracije so veliko slabše. Zaradi tega domači programerji na splošno ne zaupajo domačim modelom in raje uporabljajo Claude, tudi če tvegajo prepoved računa.

Medtem ko sta MiniMax M2 in M2.1 sprva obrnila mnenje, je generacija M2.5 naredila velik korak naprej pri uporabnosti programiranja domačih modelov. Res je, da M2.5 še vedno v vseh pogledih zaostaja za ravnjo Opus, ki jo uradno trdijo, vendar se bodo stvari razvijale v pravo smer, dokler bo nekdo pripravljen zaupati in uporabljati. Glede na to je M2.5 resnično trden korak, ki ga je 稀宇 naredil proti zmagovalnemu cilju.

稀宇 MiniMax M2.5 Ocena

稀宇 MiniMax M2.5 Ocena

Osnovne informacije

Logični rezultati

Izboljšave

Pomanjkljivosti

Sajberski zgodovinar pravi

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian je predstavil Defuddle, ki je Obsidian Web Clipper dvignil na novo raven

OpenAI nenadoma napoveduje "tri v enem": združitev brskalnika + programiranja + ChatGPT, notranje priznanje, da so v preteklem letu zgrešili pot

2026, ne silite se več v 'discipliniranost'! Poskrbite za teh 8 malenkosti, zdravje bo prišlo naravno

Tiste mame, ki se trudijo shujšati, a jim ne uspe, so zagotovo tukaj naletele na težave

AI Browser 24-urna stabilna delovna navodila