Рецензија на 稀宇 MiniMax M2.5

2/14/2026
5 min read

Рецензија на 稀宇 MiniMax M2.5

Краток заклучок: Вкоренување надолу, растење нагоре

Основни информации

Претходната генерација на 稀宇, M2.1, поради технички проблеми, иако имаше значителен напредок во програмирањето, логичките способности заостануваа зад M2. За среќа, M2.5 во основа ги реши техничките проблеми и способностите се вратија во нормална насока. Во споредба со M2, напредокот на M2.5 е околу 17%.

Сепак, дел од напредокот е постигнат преку подолги синџири на размислување и подлабока експлорација на просторот за решенија. Просечната потрошувачка на токени на M2.5 е рангирана на 6-то место меѓу сите модели кои се тестираат, речиси двојно повеќе од конкурентот Sonnet. За среќа, компјутерската моќ на 稀宇 е загарантирана, а трошоците не се високи. Иако програмирањето не може целосно да го замени Sonnet без мртви точки, тоа е целосно употребливо за секојдневна употреба. M2.5 конечно ја постигна целта што M2.1 сакаше да ја постигне.

Логички резултати

Логичка табела со резултати

*1 За да се истакне споредбата, табелата прикажува само дел од моделите за споредба, а не целосно рангирање.

*2 За прашањата и методите на тестирање, видете: Големи јазични модели - Хоризонтална проценка на логичките способности, месечен извештај 26-01. Додадено е прашање бр. 56.

*3 Целосната листа се ажурира на https://llm2014.github.io/llm_benchmark/

*4 Црвената боја е ограничена за време на Пролетниот фестивал, што означува прослава и нема друго значење.

Бидејќи M2.1 е верзија со грешки и исклучително ниски логички способности, во продолжение ќе се направи само споредба помеѓу M2 и M2.5.

Подобрувања

  • Стабилно заклучување: M2.5 може да ги задржи почетните ограничувања и контекстуалните детали во подолг процес на заклучување, така што некои проблеми кои не се многу тешки, но бараат „фокус“, M2.5 постигнуваат значително подобри резултати. На пример, #4 ротација на коцка на Рубик, M2.5 е 8-ми модел во светот кој добил максимален резултат. Но, за вакви проблеми, големите тројца во Северна Америка можат стабилно да добијат максимален резултат, додека M2.5 може да го направи тоа само со мала веројатност, што е очигледна разлика.
  • Програмирање: Како што споменавме претходно, M2.5 не може сеопфатно да го замени Sonnet, главно поради ограниченото знаење за програмирање. Во случаи кога се потребни искуство, вештини, разлики во верзиите на API итн., M2.5 тешко може сам да ги открие проблемите без навестувања и обично се потребни повеќе рунди за постепено да се намали проблемот. Но, ова е огромен напредок во споредба со M2. Во тестот за C проекти, повеќето национални модели ќе заглават во првите 2 рунди, додека M2.5 стана првиот национален модел што проби до 8-та рунда. Иако M2.5 има очигледни недостатоци во користењето на OpenGL и просторната имагинација, во комбинација со оптимизираните способности на Agent, може постојано да пробува и да греши, конвергирајќи кон правилно решение. Исто така, вреди да се напомене дека кога M2.5 работи на програмирање, тој „зборува“ помалку, речиси само дава краток преглед откако конечно ќе ја заврши работата и не ги дава своите мисли на половина пат. Другите проекти сè уште се тестираат и ќе бидат ажурирани подоцна.
  • Пресметковна моќ: Пресметковната моќ на M2 не е одлична, а M2.1 е уште полоша. M2.5 направи ефективни подобрувања на ниска почетна точка. Во повеќето едноставни пресметки, M2.5 има мала веројатност за висока прецизност, но во повеќето случаи сè уште има грешки во пресметките, големи грешки и неразбирање на формулите. Обуката во овој поглед сè уште е недоволна. Како модел управуван од Agent, пресметковната моќ не е неопходна, а пресметките на серијата Claude исто така долго време заостануваат.

Недостатоци

  • Следење на инструкции: Во споредба со M2, подобрувањето во следењето на инструкциите не е големо. Веројатноста за добивање максимален резултат за некои едноставни проблеми е поголема, но исто така не е стабилна. Има случаи на случајно отфрлање или менување на инструкциите, но набљудувајќи ја содржината на синџирот на размислување, моделот ги забележал сите инструкции, но имало проблем со конечниот излез. Севкупните перформанси заостануваат зад другите модели од првиот ешалон. Во програмирањето, исто така, има случаи на игнорирање на барањата за кодирање и стандардите на проектот. На пример, во C проектот е наведено дека оската Z е насочена нагоре, но M2.5 самоволно ја смени во оска Y за да поправи друга грешка. Потребно е дополнително внимание на контролата во секојдневната употреба.
  • Халуцинации: Нивото на халуцинации на M2.5 нема значителна промена во споредба со M2. Максималните резултати на двата модели се исти за повеќето проблеми поврзани со контекстот. Дури и на #43 проблемот со пресметување на целниот број, M2.5 ќе направи некои ниски грешки што ќе ги направат моделите од вториот ешалон, како што е повторна употреба на броеви или пропуштање броеви.

Сајбер историчарот вели

Домашните производители потрошија повеќе од половина година истражувајќи како треба да се направат моделите за програмирање. Најраните модели кои тврдеа дека се рамноправни со Sonnet изгледаа блиску само во ефектот на генерирање „една реченица“. Нивната внатрешна организација на кодот, инженеринг и, што е уште поважно, способноста за повеќекратна итерација се далеку од тоа. Ова, исто така, ги прави домашните програмери генерално да не им веруваат на домашните модели и претпочитаат да го користат Claude, дури и со ризик да бидат блокирани.

Со првичните пресврти на угледот на MiniMax M2 и M2.1, генерацијата M2.5 го придвижи напред употребливоста на програмирањето на домашните модели. Навистина, M2.5 сè уште има сеопфатна разлика со нивото Opus што го тврди официјално, но сè додека има луѓе кои се подготвени да веруваат и да користат, работите ќе се движат во добра насока. Од оваа гледна точка, M2.5 е навистина солиден чекор што 稀宇 го направи кон победничката цел.

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче На 1 април 2026 година, Anthropic во верзиј...

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново нивоTechnology

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво Уште од почетокот, многу ми се допаѓа осно...

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата годинаTechnology

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата година

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешн...

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природноHealth

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно Нова година ...

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тукаHealth

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука Март веќе помина наполовина, како напреду...

📝
Technology

AI Browser 24 часов стабилно работење водич

AI Browser 24 часов стабилно работење водич Овој туторијал објаснува како да се постави стабилна, долгорочна средина за ...