稀宇 MiniMax M2.5 Recenzija
稀宇 MiniMax M2.5 Recenzija
Kratak zaključak: Ukoreniti se dole, rasti gore
Osnovni podaci
Prethodna generacija 稀宇 M2.1 je zbog tehničkih problema, iako je napredak u programiranju bio značajan, logička sposobnost zaostajala za M2. Srećom, M2.5 je u osnovi rešio tehničke probleme, a sposobnost se vratila u normalu. U poređenju sa M2, napredak M2.5 je oko 17%.
Međutim, deo napretka je postignut dužim lancem razmišljanja i dubljim istraživanjem prostora rešenja. Prosečna potrošnja tokena M2.5 je 6. najveća među svim testiranim modelima, skoro 2 puta veća od konkurentskog Sonnet-a. Srećom, 稀宇 ima zagarantovanu računarsku snagu, a troškovi nisu visoki. Iako programiranje ne može u potpunosti da zameni Sonnet, potpuno je upotrebljivo za svakodnevnu upotrebu. M2.5 je konačno ostvario cilj koji je M2.1 želeo da postigne.
Logički rezultati

*1 Tabela prikazuje samo deo uporedivih modela radi isticanja odnosa, a ne kompletan poredak.
*2 Za pitanja i način testiranja, pogledajte: Veliki jezički model - Horizontalna procena logičke sposobnosti 26-01 mesečna lista. Dodato pitanje #56.
*3 Kompletna lista se ažurira na https://llm2014.github.io/llm_benchmark/
*4 Crvena boja je ograničena na period Prolećnog festivala, što označava radost i nema drugo značenje.
Pošto je M2.1 verzija sa greškom i izuzetno niskom logičkom sposobnošću, u nastavku će se vršiti samo međugeneracijsko poređenje M2 i M2.5.
Poboljšanja
- Stabilno zaključivanje: M2.5 može da zadrži početna ograničenja i detalje konteksta tokom dužeg procesa zaključivanja, tako da su neki problemi koji nisu teški, ali zahtevaju "fokus", značajno poboljšani kod M2.5. Na primer, #4 rotacija Rubikove kocke, M2.5 je 8. model na svetu koji je dobio pun rezultat. Ali za takve probleme, severnoamerička velika trojka može stabilno da dobije pun rezultat, dok M2.5 može samo sa malom verovatnoćom da pogodi jednom, što je očigledna razlika.
- Programiranje: Kao što je pomenuto ranije, M2.5 ne može u potpunosti da zameni Sonnet, uglavnom zbog ograničenog znanja o programiranju. U situacijama koje zahtevaju iskustvo, veštine, razlike u verzijama API-ja itd., M2.5 teško može sam da pronađe problem bez uputstava, i obično je potrebno više rundi da se postepeno suzi problem. Ali ovo je već veliki napredak u odnosu na M2. U C inženjerskom testiranju, većina domaćih modela će se zaglaviti u prve 2 runde, dok je M2.5 postao prvi domaći model koji je probio do 8. runde. Iako M2.5 ima očigledne nedostatke u korišćenju OpenGL-a i prostornoj imaginaciji, u kombinaciji sa optimizovanom sposobnošću Agent-a, može kontinuirano da pokušava i greši, konvergirajući ka tačnom rešenju. Takođe, vredi napomenuti da M2.5 manje "priča" tokom programiranja, i skoro samo izbacuje kratak rezime nakon što konačno završi posao, i ne izbacuje ideje usput. Ostali inženjerski projekti su još uvek u testiranju i biće ažurirani kasnije.
- Računarska sposobnost: Računarska sposobnost M2 se ne može smatrati odličnom, a M2.1 je još više nazadovao. M2.5 je napravio efikasna poboljšanja na niskoj početnoj tački. U većini jednostavnih proračuna, M2.5 ima malu verovatnoću visoke preciznosti, ali u većini slučajeva i dalje postoje greške u proračunu, velike greške i nerazumevanje formula. Obuka u ovom pogledu je i dalje nedovoljna. Kao model koji pokreće Agent, računarska sposobnost nije neophodna, a računarska sposobnost Claude serije je dugo zaostajala.
Nedostaci
- Poštovanje instrukcija: U poređenju sa M2, poboljšanje u poštovanju instrukcija nije veliko. Verovatnoća dobijanja punog rezultata za neke jednostavne probleme je veća, ali se ne može stabilizovati. Postoji slučajno odbacivanje instrukcija ili izmena instrukcija, ali posmatrajući sadržaj lanca razmišljanja, model je primetio sve instrukcije, a konačni izlaz ima problem. Ukupne performanse zaostaju za ostalim modelima prvog reda. U programiranju se takođe javljaju situacije u kojima se ignorišu zahtevi za kodiranje i projektne specifikacije, na primer, u C inženjerskom projektu je propisano da je koordinatna osa Z usmerena nagore, ali je M2.5 samovoljno promenio u osu Y da bi popravio drugu grešku. Potrebno je obratiti dodatnu pažnju na kontrolu u svakodnevnoj upotrebi.
- Halucinacije: Nivo halucinacija M2.5 se nije značajno promenio u odnosu na M2. Za većinu problema vezanih za kontekst, maksimalni rezultati su isti za oba. Čak i u #43 problemu izračunavanja ciljnog broja, M2.5 će napraviti neke niske greške koje se javljaju samo kod modela drugog reda, kao što je ponovljena upotreba brojeva i propuštanje brojeva.
Sajber istoričar kaže
Domaći proizvođači su proveli više od pola godine istražujući kako bi programski model trebalo da se napravi. Najranija serija modela koji su se nazivali alternativama Sonnet-u izgledala je blizu samo u efektu generisanja "jedne rečenice". Njihova unutrašnja organizacija koda, inženjering i, što je još važnije, sposobnost višestruke iteracije su daleko inferiorniji. To je takođe dovelo do toga da domaći programeri generalno ne veruju domaćim modelima i radije koriste Claude rizikujući zabranu naloga.
Sa MiniMax M2 i M2.1 koji su u početku preokrenuli reputaciju, M2.5 generacija je napravila veliki korak napred u upotrebljivosti domaćeg programiranja. Zaista, M2.5 još uvek ima sveobuhvatnu razliku u odnosu na nivo Opus koji je zvanično proklamovan, ali sve dok neko želi da veruje i želi da koristi, stvari će se razvijati u dobrom pravcu. S tim u vezi, M2.5 je zaista čvrst korak koji je 稀宇 napravio ka pobedničkom cilju.





