Recenze 稀宇 MiniMax M2.5

2/14/2026
4 min read

Recenze 稀宇 MiniMax M2.5

Stručný závěr: Kořeny dolů, růst vzhůru

Základní situace

Předchozí generace 稀宇 M2.1 měla kvůli technickým problémům sice výrazný pokrok v programování, ale logické schopnosti zaostávaly za M2. Naštěstí M2.5 technické problémy v zásadě vyřešila a schopnosti se vrátily do normálu. Ve srovnání s M2 je pokrok M2.5 přibližně 17 %.

Část pokroku je však vykoupena delším myšlenkovým řetězcem a hlubším prozkoumáváním prostoru řešení. Průměrná spotřeba Tokenů M2.5 je 6. nejvyšší ze všech testovaných modelů, téměř dvojnásobná oproti konkurenčnímu Sonnet. Naštěstí má 稀宇 zajištěný výpočetní výkon a nízké náklady. Programování sice nedokáže Sonnet plně nahradit, ale pro každodenní použití je plně použitelné. M2.5 nakonec dosáhla cíle, kterého chtěla dosáhnout M2.1.

Logické výsledky

Tabulka logických výsledků

*1 Tabulka zobrazuje pouze část srovnatelných modelů pro zdůraznění kontrastu, nejedná se o úplné pořadí.

*2 Otázky a způsob testování viz: 大语言模型-逻辑能力横评 26-01 月榜. Přidána otázka #56.

*3 Kompletní žebříček je aktualizován na https://llm2014.github.io/llm_benchmark/

*4 Červená barva je omezena na období jarních svátků, vyjadřuje radost a nemá žádný jiný význam.

Vzhledem k tomu, že M2.1 je verze s chybou a abnormálně nízkými logickými schopnostmi, bude následující text porovnávat pouze M2 a M2.5 mezigeneračně.

Vylepšení

  • Stabilní usuzování: M2.5 dokáže udržet počáteční omezení a kontextové detaily během delšího procesu usuzování, takže u některých problémů, které nejsou příliš obtížné, ale vyžadují „soustředění“, se skóre M2.5 výrazně zlepšilo. Například #4 Rotace Rubikovy kostky, M2.5 je 8. model na světě, který získal plný počet bodů. U těchto problémů však severoamerická „velká trojka“ dokáže stabilně získat plný počet bodů, zatímco M2.5 to dokáže jen s malou pravděpodobností, což je znatelný rozdíl.
  • Programování: Jak již bylo uvedeno výše, M2.5 nedokáže Sonnet plně nahradit, především kvůli omezenému množství znalostí v programování. V situacích, které vyžadují zkušenosti, dovednosti, rozdíly ve verzích API atd., M2.5 bez nápovědy jen těžko sama odhalí problém a obvykle potřebuje několik kol, aby problém postupně zúžila. To je však obrovský pokrok oproti M2. V testu C projektů většina čínských modelů uvízne v prvních 2 kolech, zatímco M2.5 se stala prvním čínským modelem, který se probojoval do 8. kola. I když má M2.5 zjevné nedostatky v používání OpenGL a prostorové představivosti, ve spojení s optimalizovanými schopnostmi Agenta dokáže neustále zkoušet a chybovat a konvergovat ke správnému řešení. Za zmínku také stojí, že M2.5 při programování „mluví“ méně, téměř jen po dokončení práce vypíše stručné shrnutí a neuvádí průběžně své myšlenky. Další projekty jsou stále v testování a budou aktualizovány později.
  • Výpočetní schopnosti: Výpočetní schopnosti M2 nebyly nijak vynikající a M2.1 se dokonce zhoršila. M2.5 dosáhla efektivního zlepšení z nízkého výchozího bodu. Ve většině jednoduchých výpočtů má M2.5 s malou pravděpodobností vysokou přesnost, ve většině případů stále existují chyby ve výpočtech, velké chyby a problémy s nepochopením vzorců. V tomto ohledu je trénink stále nedostatečný. Jako model řízený Agentem nejsou výpočetní schopnosti nutností, výpočetní schopnosti řady Claude také dlouhodobě zaostávají.

Nedostatky

  • Dodržování instrukcí: Ve srovnání s M2 není zlepšení v dodržování instrukcí příliš velké. U některých jednoduchých problémů je pravděpodobnost získání plného počtu bodů vyšší, ale ani to není stabilní. Existují případy náhodného vynechání instrukcí nebo pozměnění instrukcí, ale při pozorování obsahu myšlenkového řetězce si model všímá všech instrukcí, ale nakonec se vyskytne problém s výstupem. Celkový výkon zaostává za ostatními modely první ligy. V programování se také vyskytují případy ignorování požadavků na kódování a projektových norem, například v C projektu je stanoveno, že osa Z směřuje nahoru, ale M2.5 ji svévolně změnila na osu Y, aby opravila jinou chybu. Při každodenním používání je třeba věnovat zvláštní pozornost kontrole.
  • Halucinace: Úroveň halucinací M2.5 se oproti M2 výrazně nezměnila, u většiny problémů souvisejících s kontextem je maximální skóre obou modelů stejné. Dokonce i u problému #43 s výpočtem cílového čísla se M2.5 dopouští hloupých chyb, které se vyskytují u modelů druhé ligy, jako je opakované používání čísel a vynechávání čísel.

Kybernetický historik říká

Čínští výrobci strávili více než půl roku zkoumáním, jak by se měly dělat programovací modely. První várka modelů, které se prohlašovaly za rovnocenné Sonnet, vypadala podobně pouze v efektu generování „jedné věty“. Jejich vnitřní organizace kódu, inženýrství a, což je důležitější, schopnost vícenásobné iterace jsou mnohem horší. To také způsobilo, že čínští programátoři obecně nedůvěřují čínským modelům a raději používají Claude s rizikem zablokování účtu.

S tím, jak MiniMax M2 a M2.1 předběžně zvrátily pověst, generace M2.5 posunula použitelnost čínského programování o velký krok vpřed. Je pravda, že M2.5 má stále komplexní rozdíly oproti oficiálně deklarované úrovni Opus, ale pokud je někdo ochoten věřit a používat ji, věci se budou vyvíjet k lepšímu. Z tohoto pohledu je M2.5 skutečně pevným krokem, který 稀宇 učinila směrem k vítěznému cíli.

Published in Technology

You Might Also Like

Jak používat technologie cloud computingu: Kompletní průvodce pro vytvoření vaší první cloudové infrastrukturyTechnology

Jak používat technologie cloud computingu: Kompletní průvodce pro vytvoření vaší první cloudové infrastruktury

Jak používat technologie cloud computingu: Kompletní průvodce pro vytvoření vaší první cloudové infrastruktury Úvod S ur...

Varování! Otec Claude Code říká: Za měsíc bez režimu plánování zmizí titul softwarového inženýraTechnology

Varování! Otec Claude Code říká: Za měsíc bez režimu plánování zmizí titul softwarového inženýra

Varování! Otec Claude Code říká: Za měsíc bez režimu plánování zmizí titul softwarového inženýra Nedávno se v technolog...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

Top 10 AI agentů v roce 2026: Analýza klíčových prodejních bodůTechnology

Top 10 AI agentů v roce 2026: Analýza klíčových prodejních bodů

Top 10 AI agentů v roce 2026: Analýza klíčových prodejních bodů Úvod S rychlým rozvojem umělé inteligence se AI agenti (...

Doporučení 10 nejlepších AI nástrojů pro rok 2026: Uvolnění skutečného potenciálu umělé inteligenceTechnology

Doporučení 10 nejlepších AI nástrojů pro rok 2026: Uvolnění skutečného potenciálu umělé inteligence

Doporučení 10 nejlepších AI nástrojů pro rok 2026: Uvolnění skutečného potenciálu umělé inteligence V dnešní době rychlé...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 V rychle se rozvíjející oblasti cloud computingu je Amazon Web Services (AWS) lídrem, který nabí...