Evaluacija XiYu MiniMax M2.5

Kratki zaključak: Ukorijenjen prema dolje, raste prema gore

Osnovni podaci

Prethodna generacija XiYu M2.1 je zbog tehničkih problema, iako je imala značajan napredak u programiranju, zaostajala u logičkim sposobnostima za M2. Srećom, M2.5 je u osnovi riješio tehničke probleme, a sposobnosti su se vratile u normalu. U usporedbi s M2, napredak M2.5 je oko 17%.

Međutim, dio napretka je postignut duljim lancem razmišljanja i dubljim istraživanjem prostora rješenja. Prosječna potrošnja tokena M2.5 je 6. najveća među svim testiranim modelima, gotovo dvostruko veća od konkurentskog Sonnet-a. Srećom, XiYu ima osiguranu računalnu snagu i troškovi nisu visoki. Iako programiranje ne može u potpunosti zamijeniti Sonnet, potpuno je upotrebljivo za svakodnevnu upotrebu. M2.5 je konačno ostvario cilj koji je M2.1 želio postići.

Logički rezultati

Tablica logičkih rezultata

*1 Tablica prikazuje samo dio usporedivih modela kako bi se istaknuli odnosi, a ne potpuni poredak.

*2 Za pitanja i način testiranja pogledajte: Veliki jezični model - horizontalna evaluacija logičkih sposobnosti, mjesečna ljestvica 26-01. Dodano pitanje #56.

*3 Potpuna ljestvica se ažurira na https://llm2014.github.io/llm_benchmark/

*4 Crvena boja je ograničena na razdoblje kineske Nove godine, što označava svečanost i nema drugo značenje.

Budući da je M2.1 verzija s greškama i iznimno niskim logičkim sposobnostima, u nastavku će se uspoređivati samo M2 i M2.5.

Poboljšanja

Stabilno zaključivanje: M2.5 može zadržati početna ograničenja i detalje konteksta tijekom duljeg procesa zaključivanja, tako da su se rezultati M2.5 značajno poboljšali u nekim pitanjima koja nisu teška, ali zahtijevaju "fokus". Na primjer, #4 rotacija kocke, M2.5 je 8. model na svijetu koji je dobio puni broj bodova. Ali u takvim pitanjima, sjevernoamerička velika trojka može stabilno dobiti puni broj bodova, dok M2.5 može točno odgovoriti samo u malom broju slučajeva, što je očita razlika.
Programiranje: Kao što je ranije spomenuto, M2.5 ne može u potpunosti zamijeniti Sonnet, uglavnom zbog ograničenog znanja o programiranju. U slučajevima koji zahtijevaju iskustvo, vještine, razlike u verzijama API-ja itd., M2.5 teško može sam otkriti probleme bez uputa, obično je potrebno nekoliko rundi da se postupno suzi problem. Ali to je već veliki napredak u odnosu na M2. U testiranju C projekata, većina domaćih modela zapela bi u prve 2 runde, dok je M2.5 postao prvi domaći model koji je probio do 8. runde. Iako M2.5 ima očite nedostatke u korištenju OpenGL-a i prostornoj imaginaciji, u kombinaciji s optimiziranim Agent sposobnostima, može kontinuirano pokušavati i griješiti, konvergirajući prema točnom rješenju. Također je vrijedno napomenuti da M2.5, kada radi na programiranju, manje "priča", gotovo samo daje kratki sažetak nakon što je posao konačno završen, a ne iznosi ideje usred procesa. Ostali projekti su još u testiranju i bit će ažurirani kasnije.
Računalne sposobnosti: Računalne sposobnosti M2 nisu bile izvrsne, a M2.1 je bio još gori. M2.5 je napravio učinkovita poboljšanja na niskoj početnoj točki. U većini jednostavnih izračuna, M2.5 ima malu vjerojatnost visoke preciznosti, ali u većini slučajeva još uvijek postoje pogreške u izračunima, velike pogreške i nerazumijevanje formula. Trening u ovom području još uvijek nije dovoljan. Kao model pokretan Agentom, računalne sposobnosti nisu nužne, a računalne sposobnosti serije Claude također dugo zaostaju.

Nedostaci

Slijed instrukcija: U usporedbi s M2, poboljšanje u slijeđenju instrukcija nije veliko. Vjerojatnost dobivanja punog broja bodova za neka jednostavna pitanja je veća, ali ni to nije stabilno. Postoje slučajevi nasumičnog odbacivanja ili mijenjanja instrukcija, ali promatrajući sadržaj lanca razmišljanja, model je primijetio sve instrukcije, ali se problem pojavio u konačnom izlazu. Ukupna izvedba zaostaje za ostalim modelima u prvom ešalonu. U programiranju se također pojavljuju slučajevi ignoriranja zahtjeva za kodiranje i specifikacija projekta. Na primjer, u C projektu je propisano da je os Z usmjeren prema gore, ali M2.5 ga je samovoljno promijenio u os Y kako bi popravio drugu grešku. Potrebno je dodatno paziti na kontrolu u svakodnevnoj upotrebi.
Halucinacije: Razina halucinacija M2.5 se nije značajno promijenila u odnosu na M2. U većini problema povezanih s kontekstom, maksimalni rezultati su isti. Čak i u #43 problemu izračuna ciljanog broja, M2.5 će napraviti neke niske pogreške koje se pojavljuju samo u modelima drugog ešalona, kao što je ponovljena upotreba brojeva i propuštanje brojeva.

Kaže cyber povjesničar

Domaći proizvođači su proveli više od pola godine istražujući kako bi se programski modeli trebali raditi. Najraniji modeli koji su se nazivali zamjenama za Sonnet izgledali su blizu samo u učinku generiranja "jedne rečenice". Njihova unutarnja organizacija koda, inženjering i, što je još važnije, sposobnost višestruke iteracije daleko su inferiorniji. To je također dovelo do toga da domaći programeri općenito ne vjeruju domaćim modelima i radije koriste Claude riskirajući zabranu računa.

S MiniMax M2 i M2.1 koji su u početku preokrenuli reputaciju, generacija M2.5 je napravila veliki korak naprijed u upotrebljivosti domaćeg programiranja. Istina je da još uvijek postoji sveobuhvatna razlika između M2.5 i razine Opus koju službeno tvrde, ali sve dok netko želi vjerovati i koristiti ga, stvari će se razvijati u dobrom smjeru. Iz ove perspektive, M2.5 je doista solidan korak koji je XiYu napravio prema pobjedničkom cilju.

Evaluacija XiYu MiniMax M2.5

Evaluacija XiYu MiniMax M2.5

Osnovni podaci

Logički rezultati

Poboljšanja

Nedostaci

Kaže cyber povjesničar

You Might Also Like

Claude Code Buddy izmjena vodič: Kako dobiti sjajnog legendarno ljubimca

Obsidian je lansirao Defuddle, podižući Obsidian Web Clipper na novu visinu

OpenAI iznenada najavljuje "tri u jedan": spajanje preglednika + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogriješili

2026, ne prisiljavaj se na "disciplinu"! Učini ovih 8 malih stvari, zdravlje će doći prirodno

One of the reasons why mothers who struggle to lose weight fail

AI Browser 24小时稳定运行指南