稀宇 MiniMax M2.5 Mat

Stutt niðurstaða: Rætur niður, vöxtur upp

Grunnupplýsingar

Fyrri kynslóð 稀宇, M2.1, hafði tæknileg vandamál sem leiddu til þess að þrátt fyrir umtalsverðar framfarir í forritun, var rökfærni lakari en M2. Sem betur fer hefur M2.5 að mestu leyst tæknilegu vandamálin og getan er komin aftur á réttan kjöl. Í samanburði við M2 eru framfarir M2.5 um það bil 17%.

Hins vegar eru hluti framfaranna vegna lengri hugsunarkeðju og dýpri lausnarrýmisskönnunar. Meðal Token-neysla M2.5 er sú 6. hæsta af öllum módelum í prófun, næstum tvöfalt hærri en keppinauturinn Sonnet. Sem betur fer er reiknikraftur 稀宇 tryggður og kostnaðurinn er ekki hár. Þó að forritun geti ekki alveg komið í stað Sonnet án galla, er hún fullkomlega nothæf til daglegrar notkunar. M2.5 náði loksins því markmiði sem M2.1 vildi ná.

Rökfærniárangur

Rökfærnitafla

*1 Taflan sýnir aðeins hluta af samanburðarmódelum til að undirstrika samanburð, ekki heildarröðun.

*2 Fyrir spurningar og prófunaraðferðir, sjá: 大语言模型-逻辑能力横评 26-01 月榜. Bætt við #56 spurningu.

*3 Heildarlistinn er uppfærður á https://llm2014.github.io/llm_benchmark/

*4 Rauður litur er takmarkaður við kínverska nýárið, táknar gleði og hefur enga aðra merkingu.

Þar sem M2.1 er útgáfa með villum og óeðlilega lága rökfærni, verður aðeins gerður samanburður á milli kynslóða M2 og M2.5 í textanum hér á eftir.

Bætingar

Stöðug ályktun: M2.5 getur viðhaldið upphaflegum takmörkunum og samhengisupplýsingum í lengri ályktunarferlum, þannig að M2.5 skorar marktækt hærra í sumum vandamálum sem eru ekki erfið en krefjast „einbeitingar“. Til dæmis er M2.5 áttunda módel í heiminum til að fá fullt hús stiga í #4 Rubik's Cube snúningi. Hins vegar geta stóru þrjú Norður-Ameríku fyrirtækin stöðugt fengið fullt hús stiga í þessum vandamálum, en M2.5 getur aðeins gert það með litlum líkum einu sinni, sem sýnir augljósan mun.
Forritun: Eins og áður hefur komið fram getur M2.5 ekki komið í stað Sonnet á allan hátt, aðallega vegna takmarkaðrar þekkingar á forritun. Í aðstæðum sem krefjast reynslu, tækni, útgáfu API mismunar o.s.frv., á M2.5 erfitt með að finna vandamál sjálft án vísbendinga og þarf venjulega margar umferðir til að þrengja vandamálið smám saman. En þetta er mikil framför miðað við M2. Í C verkefnaprófunum festast flest kínversk módel í fyrstu 2 umferðunum, en M2.5 varð fyrsta kínverska módelið til að brjótast í gegnum 8. umferðina. Þrátt fyrir að M2.5 hafi augljósa veikleika í OpenGL notkun og rúmímyndun, getur það stöðugt reynt og gert mistök og nálgast rétta lausn með bættri Agent getu. Einnig er vert að taka fram að M2.5 talar minna þegar unnið er að forritun, gefur næstum eingöngu stutta samantekt eftir að hafa lokið verkinu og gefur ekki út hugmyndir á leiðinni. Önnur verkefni eru enn í prófun og verða uppfærð síðar.
Reiknigeta: Reiknigeta M2 var ekki frábær og M2.1 var enn lakari. M2.5 hefur gert árangursríkar endurbætur á lágu upphafsstigi. Í flestum einföldum útreikningum hefur M2.5 litlar líkur á mikilli nákvæmni, en í flestum tilfellum eru enn reiknivillur, stórar villur og vandamál með að skilja ekki formúlur. Þjálfun á þessu sviði er enn ófullnægjandi. Sem Agent-drifið líkan er reiknigeta ekki bráðnauðsynleg, og útreikningar Claude seríunnar hafa einnig verið á eftir í langan tíma.

Annmarkar

Fylgni við fyrirmæli: Í samanburði við M2 eru framfarir í fylgni við fyrirmæli ekki miklar. Líkurnar á að fá fullt hús stiga í einföldum vandamálum eru hærri, en það er heldur ekki stöðugt. Það eru tilvik þar sem fyrirmælum er hent af handahófi eða þeim breytt, en við athugun á hugsunarkeðjunni tekur líkanið eftir öllum fyrirmælum, en vandamál koma upp í lokaniðurstöðunni. Heildarframmistaðan er á eftir öðrum módelum í fremstu röð. Í forritun koma einnig upp tilvik þar sem kröfur um kóðun og verkefnastaðla eru hunsaðar. Til dæmis, í C verkefninu er kveðið á um að Z-ásinn vísi upp, en M2.5 breytti honum ólöglega í Y-ás til að laga aðra villu. Það þarf að gæta sérstakrar varúðar við daglega notkun.
Ofskynjanir: Ofskynjunarstig M2.5 hefur ekki breyst marktækt miðað við M2. Hámarksstig beggja er það sama í flestum samhengistengdum vandamálum. Jafnvel í #43 markmiðatölureikningsvandamálinu gerir M2.5 einnig nokkur grunn mistök sem aðeins módel í annarri röð myndu gera, eins og að nota tölur endurtekið eða sleppa tölum.

Sagnfræðingur netheima segir

Innlendir framleiðendur hafa eytt meira en hálfu ári í að kanna hvernig forritunarmódel ætti að vera. Fyrstu módelin sem sögðust vera jafngild Sonnet voru að mestu leyti aðeins nálægt hvað varðar „eina setningu“ framleiðslu. Innri kóðaskipulagning, verkfræði og, það sem meira er, fjölþætt endurtekningargeta eru langt á eftir. Þetta hefur einnig gert það að verkum að innlendir forritarar treysta almennt ekki kínverskum módelum og vilja frekar nota Claude á hættu á að reikningum þeirra verði lokað.

En þar sem MiniMax M2 og M2.1 sneru fyrstu við umtalsverðri skoðun, hefur M2.5 kynslóðin fært notagildi kínverskrar forritunar umtalsvert áfram. Vissulega er enn alhliða bil á milli M2.5 og Opus stigsins sem opinberlega er fullyrt um, en svo lengi sem einhver er tilbúinn að treysta og nota, mun hlutirnir þróast til hins betra. Að þessu virtu er M2.5 vissulega traust skref sem 稀宇 hefur stigið í átt að sigri.

稀宇 MiniMax M2.5 Mat

稀宇 MiniMax M2.5 Mat

Grunnupplýsingar

Rökfærniárangur

Bætingar

Annmarkar

Sagnfræðingur netheima segir

You Might Also Like

Claude Code Buddy breytingarleiðbeiningar: Hvernig á að fá glitrandi goðsagnir dýr

Obsidian hefur gefið út Defuddle, sem lyftir Obsidian Web Clipper á nýjan hæð

OpenAI tilkynnti skyndilega "þrjú í eitt": Vafri + forritun + ChatGPT sameining, innanhúss viðurkenndu þau að hafa farið rangt að síðasta árið

2026, ekki lengur að þrýsta á sjálfan sig "sjálfsaga"! Gerðu þessar 8 litlu hluti, heilsa kemur náttúrulega

Mæðurnar sem reyna að léttast en ná ekki árangri, eru örugglega að lenda í þessu

AI Browser 24 tíma stöðugleika leiðbeiningar