Recenze 稀宇 MiniMax M2.5

Stručný závěr: Kořeny dolů, růst vzhůru

Základní situace

Předchozí generace 稀宇 M2.1 měla kvůli technickým problémům sice výrazný pokrok v programování, ale logické schopnosti zaostávaly za M2. Naštěstí M2.5 technické problémy v zásadě vyřešila a schopnosti se vrátily do normálu. Ve srovnání s M2 je pokrok M2.5 přibližně 17 %.

Část pokroku je však vykoupena delším myšlenkovým řetězcem a hlubším prozkoumáváním prostoru řešení. Průměrná spotřeba Tokenů M2.5 je 6. nejvyšší ze všech testovaných modelů, téměř dvojnásobná oproti konkurenčnímu Sonnet. Naštěstí má 稀宇 zajištěný výpočetní výkon a nízké náklady. Programování sice nedokáže Sonnet plně nahradit, ale pro každodenní použití je plně použitelné. M2.5 nakonec dosáhla cíle, kterého chtěla dosáhnout M2.1.

Logické výsledky

Tabulka logických výsledků

*1 Tabulka zobrazuje pouze část srovnatelných modelů pro zdůraznění kontrastu, nejedná se o úplné pořadí.

*2 Otázky a způsob testování viz: 大语言模型-逻辑能力横评 26-01 月榜. Přidána otázka #56.

*3 Kompletní žebříček je aktualizován na https://llm2014.github.io/llm_benchmark/

*4 Červená barva je omezena na období jarních svátků, vyjadřuje radost a nemá žádný jiný význam.

Vzhledem k tomu, že M2.1 je verze s chybou a abnormálně nízkými logickými schopnostmi, bude následující text porovnávat pouze M2 a M2.5 mezigeneračně.

Vylepšení

Stabilní usuzování: M2.5 dokáže udržet počáteční omezení a kontextové detaily během delšího procesu usuzování, takže u některých problémů, které nejsou příliš obtížné, ale vyžadují „soustředění“, se skóre M2.5 výrazně zlepšilo. Například #4 Rotace Rubikovy kostky, M2.5 je 8. model na světě, který získal plný počet bodů. U těchto problémů však severoamerická „velká trojka“ dokáže stabilně získat plný počet bodů, zatímco M2.5 to dokáže jen s malou pravděpodobností, což je znatelný rozdíl.
Programování: Jak již bylo uvedeno výše, M2.5 nedokáže Sonnet plně nahradit, především kvůli omezenému množství znalostí v programování. V situacích, které vyžadují zkušenosti, dovednosti, rozdíly ve verzích API atd., M2.5 bez nápovědy jen těžko sama odhalí problém a obvykle potřebuje několik kol, aby problém postupně zúžila. To je však obrovský pokrok oproti M2. V testu C projektů většina čínských modelů uvízne v prvních 2 kolech, zatímco M2.5 se stala prvním čínským modelem, který se probojoval do 8. kola. I když má M2.5 zjevné nedostatky v používání OpenGL a prostorové představivosti, ve spojení s optimalizovanými schopnostmi Agenta dokáže neustále zkoušet a chybovat a konvergovat ke správnému řešení. Za zmínku také stojí, že M2.5 při programování „mluví“ méně, téměř jen po dokončení práce vypíše stručné shrnutí a neuvádí průběžně své myšlenky. Další projekty jsou stále v testování a budou aktualizovány později.
Výpočetní schopnosti: Výpočetní schopnosti M2 nebyly nijak vynikající a M2.1 se dokonce zhoršila. M2.5 dosáhla efektivního zlepšení z nízkého výchozího bodu. Ve většině jednoduchých výpočtů má M2.5 s malou pravděpodobností vysokou přesnost, ve většině případů stále existují chyby ve výpočtech, velké chyby a problémy s nepochopením vzorců. V tomto ohledu je trénink stále nedostatečný. Jako model řízený Agentem nejsou výpočetní schopnosti nutností, výpočetní schopnosti řady Claude také dlouhodobě zaostávají.

Nedostatky

Dodržování instrukcí: Ve srovnání s M2 není zlepšení v dodržování instrukcí příliš velké. U některých jednoduchých problémů je pravděpodobnost získání plného počtu bodů vyšší, ale ani to není stabilní. Existují případy náhodného vynechání instrukcí nebo pozměnění instrukcí, ale při pozorování obsahu myšlenkového řetězce si model všímá všech instrukcí, ale nakonec se vyskytne problém s výstupem. Celkový výkon zaostává za ostatními modely první ligy. V programování se také vyskytují případy ignorování požadavků na kódování a projektových norem, například v C projektu je stanoveno, že osa Z směřuje nahoru, ale M2.5 ji svévolně změnila na osu Y, aby opravila jinou chybu. Při každodenním používání je třeba věnovat zvláštní pozornost kontrole.
Halucinace: Úroveň halucinací M2.5 se oproti M2 výrazně nezměnila, u většiny problémů souvisejících s kontextem je maximální skóre obou modelů stejné. Dokonce i u problému #43 s výpočtem cílového čísla se M2.5 dopouští hloupých chyb, které se vyskytují u modelů druhé ligy, jako je opakované používání čísel a vynechávání čísel.

Kybernetický historik říká

Čínští výrobci strávili více než půl roku zkoumáním, jak by se měly dělat programovací modely. První várka modelů, které se prohlašovaly za rovnocenné Sonnet, vypadala podobně pouze v efektu generování „jedné věty“. Jejich vnitřní organizace kódu, inženýrství a, což je důležitější, schopnost vícenásobné iterace jsou mnohem horší. To také způsobilo, že čínští programátoři obecně nedůvěřují čínským modelům a raději používají Claude s rizikem zablokování účtu.

S tím, jak MiniMax M2 a M2.1 předběžně zvrátily pověst, generace M2.5 posunula použitelnost čínského programování o velký krok vpřed. Je pravda, že M2.5 má stále komplexní rozdíly oproti oficiálně deklarované úrovni Opus, ale pokud je někdo ochoten věřit a používat ji, věci se budou vyvíjet k lepšímu. Z tohoto pohledu je M2.5 skutečně pevným krokem, který 稀宇 učinila směrem k vítěznému cíli.

Recenze 稀宇 MiniMax M2.5

Recenze 稀宇 MiniMax M2.5

Základní situace

Logické výsledky

Vylepšení

Nedostatky

Kybernetický historik říká

You Might Also Like

Claude Code Buddy úpravy: Jak získat lesklého legendárního mazlíčka

Obsidian uvedl Defuddle, který posunul Obsidian Web Clipper na novou úroveň

OpenAI náhle oznámila "třív jednom": sloučení prohlížeče + programování + ChatGPT, interně přiznává, že se v uplynulém roce mýlila

2026, už se nenuťte k "sebeovládání"! Udělejte těchto 8 drobností a zdraví přijde přirozeně

Ty matky, které se snaží zhubnout, ale nedaří se jim, se určitě potýkají s tímto problémem

AI Browser 24 hodinový stabilní provozní průvodce