稀宇 MiniMax M2.5 Apžvalga
稀宇 MiniMax M2.5 Apžvalga
Trumpa išvada: įsišakniję žemyn, augantys aukštyn
Pagrindinė informacija
Ankstesnės kartos 稀宇 M2.1 dėl techninių problemų, nors ir padarė didelę pažangą programavimo srityje, logikos galimybėmis atsiliko nuo M2. Laimei, M2.5 iš esmės išsprendė technines problemas, o galimybės grįžo į normalią vagą. Palyginti su M2, M2.5 pažanga yra maždaug 17 %.
Tačiau dalis pažangos pasiekta ilgesnių mąstymo grandinių ir gilesnio sprendimų erdvės tyrinėjimo sąskaita. M2.5 vidutinis Token suvartojimas yra 6-tas didžiausias tarp visų testuojamų modelių, beveik 2 kartus didesnis nei konkurento Sonnet. Laimei, 稀宇 turi garantuotą skaičiavimo galią, o kaina nėra didelė. Nors programavimas negali visiškai pakeisti Sonnet, kasdieniam naudojimui jis yra visiškai tinkamas. M2.5 galiausiai pasiekė tikslą, kurio siekė M2.1.
Logikos rezultatai

*1 Lentelėje, siekiant pabrėžti palyginimą, pateikiama tik dalis palyginamų modelių, o ne pilnas rūšiavimas.
*2 Klausimai ir testavimo metodai pateikiami: Didelių kalbos modelių - loginių galimybių lyginamasis įvertinimas 26-01 mėnesio reitingas. Pridėtas #56 klausimas.
*3 Pilnas reitingas atnaujinamas adresu https://llm2014.github.io/llm_benchmark/
*4 Raudona spalva yra ribota pavasario šventės laikotarpiu, reiškianti džiaugsmą ir neturi kitos reikšmės.
Kadangi M2.1 yra versija su klaidomis ir neįprastai žemomis loginėmis galimybėmis, toliau pateikiamas tik M2 ir M2.5 kartų palyginimas.
Patobulinimai
- Stabilus samprotavimas: M2.5 gali išlaikyti pradinius apribojimus ir konteksto detales ilgesnio samprotavimo proceso metu, todėl kai kurių nelabai sudėtingų, bet reikalaujančių „susikaupimo“ klausimų, M2.5 rezultatai žymiai pagerėjo. Pavyzdžiui, #4 Rubiko kubo sukimas, M2.5 yra 8-asis modelis pasaulyje, gavęs maksimalų balą. Tačiau tokius klausimus Šiaurės Amerikos „didysis trejetas“ gali stabiliai atlikti maksimaliai, o M2.5 gali atsitiktinai pataikyti tik vieną kartą, skirtumas akivaizdus.
- Programavimas: Kaip minėta anksčiau, M2.5 negali visapusiškai pakeisti Sonnet, daugiausia dėl riboto programavimo žinių kiekio. Vietose, kur reikia patirties, įgūdžių, versijų API skirtumų ir pan., M2.5 be užuominų sunku pačiam aptikti problemas, paprastai reikia kelių iteracijų, palaipsniui susiaurinant problemą. Tačiau tai jau yra didelis M2 patobulinimas. C projekto testavime didžioji dauguma šalies modelių užstringa pirmuose 2 ratuose, o M2.5 tapo pirmuoju šalies modeliu, prasiveržusiu į 8 ratą. Nors M2.5 turi akivaizdžių trūkumų naudojant OpenGL ir erdvinį vaizduotę, tačiau kartu su optimizuotomis Agent galimybėmis jis gali nuolat bandyti ir klysti, konverguodamas į teisingą sprendimą. Be to, verta paminėti, kad M2.5, dirbdamas programavimo darbus, „kalba“ mažiau, beveik tik atlikęs darbą pateikia trumpą santrauką, o ne pateikia idėjas tarpiniuose etapuose. Kiti projektai dar testuojami, bus atnaujinta vėliau.
- Skaičiavimo galimybės: M2 skaičiavimo galimybės nėra puikios, o M2.1 dar labiau atsiliko. M2.5 padarė veiksmingų patobulinimų nuo žemo starto taško. Daugumoje paprastų skaičiavimų M2.5 su maža tikimybe pasiekia didelį tikslumą, daugeliu atvejų vis dar klysta, daro dideles paklaidas ir nesupranta formulių. Šios srities mokymų vis dar trūksta. Kaip Agent valdomam modeliui, skaičiavimo galimybės nėra būtinos, Claude serijos skaičiavimai taip pat ilgą laiką atsilieka.
Trūkumai
- Instrukcijų laikymasis: Palyginti su M2, instrukcijų laikymosi pagerėjimas nėra didelis, kai kuriuos paprastus klausimus gauti maksimalų balą yra labiau tikėtina, tačiau taip pat neįmanoma stabiliai. Yra atsitiktinio instrukcijų atmetimo arba instrukcijų klastojimo atvejų, tačiau stebint mąstymo grandinės turinį, modelis atkreipė dėmesį į visas instrukcijas, o galutinėje išvestyje atsirado problemų. Bendras našumas atsilieka nuo kitų pirmosios pakopos modelių. Programuojant taip pat pasitaiko atvejų, kai nepaisoma kodavimo reikalavimų, projekto specifikacijų, pavyzdžiui, C projekte nurodyta, kad Z ašis yra nukreipta į viršų, tačiau M2.5, norėdamas ištaisyti kitą klaidą, savo nuožiūra pakeitė ją į Y ašį. Kasdien naudojant reikia papildomai atkreipti dėmesį į kontrolę.
- Haliucinacijos: M2.5 haliucinacijų lygis žymiai nepakito, palyginti su M2, daugumos su kontekstu susijusių klausimų atveju abiejų modelių maksimalūs balai yra vienodi. Netgi #43 tikslinio skaičiaus skaičiavimo klausimu M2.5 vis dar daro kai kurias žemo lygio klaidas, kurias daro tik antros pakopos modeliai, pavyzdžiui, pakartotinai naudoja skaičius arba praleidžia skaičius.
Kibernetinis metraštininkas sako
Vidaus gamintojai praleido daugiau nei pusę metų tyrinėdami, kaip turėtų būti kuriami programavimo modeliai. Pirmieji modeliai, kurie teigė esantys lygiaverčiai Sonnet, daugiausia buvo panašūs tik „vieno sakinio“ generavimo efektu. Jų vidinė kodo organizacija, inžinerija ir, svarbiausia, daugiapakopis iteracijos pajėgumas yra daug prastesni. Dėl to šalies programuotojai paprastai nepasitiki šalies modeliais ir mieliau naudoja Claude, net rizikuodami, kad jų paskyros bus užblokuotos.
Tačiau MiniMax M2, M2.1 preliminariai pakeitus reputaciją, M2.5 karta žengė didelį žingsnį į priekį šalies modelių programavimo prieinamumo srityje. Iš tiesų, M2.5 vis dar turi visapusiškų skirtumų nuo oficialiai deklaruoto Opus lygio, tačiau tol, kol atsiras žmonių, kurie nori pasitikėti, nori naudoti, viskas judės į gerąją pusę. Atsižvelgiant į tai, M2.5 iš tiesų yra tvirtas žingsnis, kurį 稀宇 žengė siekdamas pergalės tikslo.





