Recenzie MiniMax M2.5 de la 稀宇 (Xiyu)

Concluzie scurtă: Înrădăcinare în jos, creștere în sus

Situația de bază

Modelul M2.1 anterior de la 稀宇 (Xiyu), din cauza unor probleme tehnice, deși a avut progrese semnificative în programare, capacitatea logică a rămas în urma M2. Din fericire, M2.5 a rezolvat practic problemele tehnice, iar capacitatea a revenit la normal. Comparativ cu M2, progresul M2.5 este de aproximativ 17%.

Cu toate acestea, o parte din progres este obținută prin lanțuri de gândire mai lungi și explorarea mai profundă a spațiului de soluții. Consumul mediu de Token al M2.5 se clasează pe locul 6 printre toate modelele testate, fiind de aproape 2 ori mai mare decât cel al adversarului Sonnet. Din fericire, puterea de calcul a lui 稀宇 (Xiyu) este garantată, iar costul nu este ridicat. Deși programarea nu poate înlocui Sonnet în totalitate, este complet utilizabilă pentru utilizarea zilnică. M2.5 a atins în cele din urmă obiectivul pe care M2.1 dorea să-l atingă.

Rezultate logice

Tabel cu rezultate logice

*1 Pentru a evidenția relația de contrast, tabelul prezintă doar o parte din modelele comparabile, nu este o sortare completă.

*2 Pentru întrebări și metode de testare, consultați: Evaluare comparativă a capacității logice a modelelor lingvistice mari - Clasamentul lunar 26-01. S-a adăugat întrebarea #56.

*3 Clasamentul complet este actualizat pe https://llm2014.github.io/llm_benchmark/

*4 Roșu este limitat la perioada Festivalului Primăverii, reprezentând bucurie, fără alte semnificații.

Deoarece M2.1 este o versiune cu bug-uri, cu o capacitate logică anormal de scăzută, comparația intergenerațională de mai jos se va face doar între M2 și M2.5.

Îmbunătățiri

Raționament stabil: M2.5 poate menține constrângerile inițiale și detaliile contextuale în timpul unui proces de raționament mai lung, astfel încât unele probleme care nu sunt dificile, dar necesită "concentrare", M2.5 obține un scor semnificativ mai mare. De exemplu, #4 Rotirea cubului Rubik, M2.5 este al 8-lea model din lume care a obținut punctajul maxim. Dar astfel de probleme, cele trei mari companii nord-americane pot obține în mod constant punctajul maxim, în timp ce M2.5 poate obține doar o dată cu o probabilitate mică, diferența fiind evidentă.
Programare: După cum s-a menționat anterior, M2.5 nu poate înlocui Sonnet în toate aspectele, în principal din cauza limitărilor cantității de cunoștințe de programare. În situații care necesită experiență, abilități, diferențe de versiune API etc., M2.5 este greu să descopere singur problemele fără indicii, de obicei necesitând mai multe runde pentru a restrânge treptat problema. Dar acesta este deja un progres uriaș față de M2. În testul de inginerie C, majoritatea modelelor naționale se vor bloca în primele 2 runde, în timp ce M2.5 a devenit primul model național care a ajuns în runda a 8-a. Deși M2.5 are deficiențe evidente în utilizarea OpenGL și în imaginația spațială, cu capacitatea Agent optimizată, poate încerca și greși continuu, convergând către soluția corectă. De asemenea, este demn de remarcat faptul că, atunci când M2.5 lucrează la programare, "vorbește" mai puțin, aproape că oferă un rezumat scurt doar după finalizarea finală a lucrării și nu oferă idei la mijloc. Alte proiecte sunt încă în testare și vor fi actualizate ulterior.
Capacitate de calcul: Capacitatea de calcul a lui M2 nu este excelentă, iar M2.1 a regresat și mai mult. M2.5 a făcut îmbunătățiri eficiente de la un punct de plecare scăzut. În majoritatea calculelor simple, M2.5 are o probabilitate mică de precizie ridicată, dar în majoritatea cazurilor încă există greșeli de calcul, erori mari și incapacitatea de a înțelege formulele. Antrenamentul în acest sens este încă insuficient. Ca model bazat pe Agent, capacitatea de calcul nu este o necesitate absolută, iar calculul seriei Claude a rămas mult timp în urmă.

Deficiențe

Respectarea instrucțiunilor: Comparativ cu M2, îmbunătățirea respectării instrucțiunilor nu este mare. Probabilitatea de a obține punctajul maxim pentru unele probleme simple este mai mare, dar nici nu poate fi stabilă. Există cazuri de renunțare aleatorie la instrucțiuni sau de modificare a instrucțiunilor, dar observând conținutul lanțului de gândire, modelul a observat toate instrucțiunile, iar problema apare în rezultatul final. Performanța generală este în urma celorlalte modele din primul eșalon. În programare, vor exista, de asemenea, cazuri de ignorare a cerințelor de codificare și a standardelor de proiect, cum ar fi în proiectul C, unde se specifică faptul că axa Z a coordonatelor este orientată în sus, dar M2.5 a schimbat-o în mod neautorizat în axa Y pentru a repara un alt bug. Este necesară o atenție suplimentară în utilizarea zilnică.
Halucinații: Nivelul de halucinații al M2.5 nu s-a schimbat semnificativ față de M2. Pentru majoritatea problemelor legate de context, cele două au același scor limită. Chiar și în problema #43 de calcul al numărului țintă, M2.5 va face unele greșeli elementare, cum ar fi utilizarea repetată a numerelor și omiterea numerelor, care apar doar la modelele din al doilea eșalon.

Cronicarul cibernetic spune

Producătorii interni au petrecut mai bine de jumătate de an explorând cum ar trebui să fie realizat un model de programare. Primele modele care pretindeau că sunt înlocuitori pentru Sonnet păreau apropiate doar în efectul de generare "într-o singură propoziție". Organizarea internă a codului, ingineria și, mai important, capacitatea de iterație multi-rundă sunt mult inferioare. Acest lucru face ca programatorii interni să nu aibă încredere în modelele naționale și preferă să folosească Claude, chiar dacă riscă să li se blocheze conturile.

Odată cu MiniMax M2 și M2.1 care au inversat inițial reputația, generația M2.5 face un mare pas înainte în ceea ce privește utilizarea programării modelelor naționale. Într-adevăr, M2.5 are încă o diferență completă față de nivelul Opus declarat oficial, dar atâta timp cât cineva este dispus să aibă încredere și să folosească, lucrurile vor evolua într-o direcție bună. Din acest punct de vedere, M2.5 este într-adevăr un pas solid pe care 稀宇 (Xiyu) l-a făcut către obiectivul victoriei.

Recenzie MiniMax M2.5 de la 稀宇 (Xiyu)

Recenzie MiniMax M2.5 de la 稀宇 (Xiyu)

Situația de bază

Rezultate logice

Îmbunătățiri

Deficiențe

Cronicarul cibernetic spune

You Might Also Like

Claude Code Buddy Modificare Ghid: Cum să obții un animal de companie legendar strălucitor

Obsidian a lansat Defuddle, ducând Obsidian Web Clipper la un nou nivel

OpenAI a anunțat brusc "3 în 1": combinarea browser-ului + programare + ChatGPT, recunoscând că a greșit în ultimul an

2026, nu te mai forța să fii "disciplinat"! Fă aceste 8 lucruri mici și sănătatea va veni natural

Mamele care se străduiesc să slăbească, dar nu reușesc, cu siguranță au căzut aici

AI Browser 24小时稳定运行指南