Recenzija XiYu MiniMax M2.5

Kratki zaključak: Ukorijenjen prema dolje, raste prema gore

Osnovne informacije

Prethodna generacija XiYu M2.1, zbog tehničkih problema, iako je napredovala značajno u programiranju, zaostajala je u logičkim sposobnostima za M2. Srećom, M2.5 je u osnovi riješio tehničke probleme, a sposobnosti su se vratile u normalu. U usporedbi s M2, napredak M2.5 je otprilike 17%.

Međutim, dio napretka je postignut duljim lancem razmišljanja i dubljim istraživanjem prostora rješenja. Prosječna potrošnja tokena M2.5 je 6. najveća među svim testiranim modelima, gotovo dvostruko veća od konkurentskog Sonneta. Srećom, XiYu ima zajamčenu računalnu snagu, a troškovi nisu visoki. Iako programiranje ne može u potpunosti zamijeniti Sonnet bez nedostataka, potpuno je upotrebljivo za svakodnevnu upotrebu. M2.5 je konačno ostvario cilj koji je M2.1 želio postići.

Logički rezultati

Tablica logičkih rezultata

*1 Tablica prikazuje samo dio usporedivih modela kako bi se istaknuli odnosi, a ne potpuni poredak.

*2 Za pitanja i način testiranja pogledajte: Veliki jezični model - Horizontalna usporedba logičkih sposobnosti, mjesečna ljestvica 26-01. Dodano pitanje #56.

*3 Potpuna ljestvica se ažurira na https://llm2014.github.io/llm_benchmark/

*4 Crvena boja je ograničena za vrijeme proljetnog festivala, što označava radost i nema drugo značenje.

Budući da je M2.1 verzija s greškama i iznimno niskim logičkim sposobnostima, u nastavku će se provesti samo međugeneracijska usporedba M2 i M2.5.

Poboljšanja

Stabilno zaključivanje: M2.5 može zadržati početna ograničenja i detalje konteksta tijekom duljeg procesa zaključivanja, pa su se rezultati M2.5 značajno poboljšali u nekim pitanjima koja nisu teška, ali zahtijevaju "fokus". Na primjer, #4 rotacija kocke, M2.5 je 8. model na svijetu koji je dobio puni broj bodova. Međutim, u takvim pitanjima, sjevernoamerička velika trojka može stabilno dobiti puni broj bodova, dok M2.5 može samo s malom vjerojatnošću odgovoriti točno jednom, što je očita razlika.
Programiranje: Kao što je već spomenuto, M2.5 ne može u potpunosti zamijeniti Sonnet, uglavnom zbog ograničenog znanja o programiranju. U situacijama koje zahtijevaju iskustvo, vještine, razlike u verzijama API-ja itd., M2.5 teško može sam otkriti probleme bez uputa, obično je potrebno nekoliko rundi da se postupno suzi problem. Ali to je već veliki napredak u odnosu na M2. U testiranju C projekata, većina domaćih modela zapela bi u prve 2 runde, dok je M2.5 postao prvi domaći model koji je probio do 8. runde. Iako M2.5 ima očite nedostatke u korištenju OpenGL-a i prostornoj imaginaciji, u kombinaciji s optimiziranim Agent sposobnostima, može se kontinuirano pokušavati i pogriješiti, konvergirajući prema točnom rješenju. Također je vrijedno napomenuti da M2.5, kada radi na programiranju, manje "priča", gotovo samo nakon što konačno završi posao, daje kratki sažetak, a ne iznosi ideje usred procesa. Ostali projekti su još u testiranju i bit će ažurirani kasnije.
Računska sposobnost: Računska sposobnost M2 nije bila izvrsna, a M2.1 je bio još gori. M2.5 je napravio učinkovita poboljšanja na niskoj početnoj točki. U većini jednostavnih izračuna, M2.5 ima malu vjerojatnost visoke preciznosti, ali u većini slučajeva još uvijek postoje pogrešni izračuni, velike pogreške i problemi s nerazumijevanjem formula. Trening u ovom području još uvijek nije dovoljan. Kao model pokretan Agentom, računska sposobnost nije nužna, a izračuni serije Claude također dugo zaostaju.

Nedostaci

Slijed instrukcija: U usporedbi s M2, poboljšanje u slijeđenju instrukcija nije veliko. Vjerojatnost dobivanja punog broja bodova za neke jednostavne probleme je veća, ali ni to nije stabilno. Postoje slučajevi nasumičnog odbacivanja ili mijenjanja instrukcija, ali promatrajući sadržaj lanca razmišljanja, model je primijetio sve instrukcije, ali se problem pojavio u konačnom izlazu. Ukupna izvedba zaostaje za ostalim modelima prve razine. U programiranju se također javljaju situacije u kojima se zanemaruju zahtjevi kodiranja i specifikacije projekta, na primjer, u C projektu je propisano da je os Z usmjeren prema gore, ali M2.5 ga je samovoljno promijenio u os Y kako bi popravio drugu grešku. Potrebno je dodatno paziti na kontrolu u svakodnevnoj upotrebi.
Halucinacije: Razina halucinacija M2.5 se nije značajno promijenila u odnosu na M2. U većini problema povezanih s kontekstom, maksimalni rezultati obaju su isti. Čak i u #43 problemu izračuna ciljanog broja, M2.5 će napraviti neke niske pogreške koje se javljaju samo kod modela druge razine, kao što je ponovljena upotreba brojeva i propuštanje brojeva.

Kaže Cyber povjesničar

Domaći proizvođači su proveli više od pola godine istražujući kako bi programski model trebao biti napravljen. Najraniji modeli koji su se nazivali zamjenama za Sonnet izgledali su blizu samo u učinku generiranja "jedne rečenice". Njihova unutarnja organizacija koda, inženjering i, što je još važnije, sposobnost višestruke iteracije daleko su inferiorniji. To je također razlog zašto domaći programeri općenito ne vjeruju domaćim modelima i radije koriste Claude riskirajući zabranu računa.

S MiniMax M2 i M2.1 koji su u početku preokrenuli reputaciju, M2.5 je generacija koja je napravila veliki korak naprijed u upotrebljivosti programiranja domaćih modela. Istina je da M2.5 još uvijek ima sveobuhvatne nedostatke u odnosu na razinu Opus koju je službeno proglasio, ali sve dok postoji netko tko je spreman vjerovati i koristiti ga, stvari će se razvijati u dobrom smjeru. S tim u vezi, M2.5 je doista solidan korak koji je XiYu napravio prema pobjedničkom cilju.

Recenzija XiYu MiniMax M2.5

Recenzija XiYu MiniMax M2.5

Osnovne informacije

Logički rezultati

Poboljšanja

Nedostaci

Kaže Cyber povjesničar

You Might Also Like

Claude Code Buddy izmjena vodič: kako dobiti sjajnog legendarno ljubimca

Obsidian je lansirao Defuddle, podižući Obsidian Web Clipper na novu razinu

OpenAI iznenada najavljuje "tri u jednom": spajanje preglednika + programiranja + ChatGPT, unutarnje priznanje da su prošlu godinu pogriješili

2026, ne prisiljavajte se na "disciplinu"! Učinite ovih 8 malih stvari, zdravlje će doći prirodno

One effortful mothers who can't lose weight definitely fall here

AI Browser 24-satna stabilna operativna uputa