Рецензија на 稀宇 MiniMax M2.5
Рецензија на 稀宇 MiniMax M2.5
Краток заклучок: Вкоренување надолу, растење нагоре
Основни информации
Претходната генерација на 稀宇, M2.1, поради технички проблеми, иако имаше значителен напредок во програмирањето, логичките способности заостануваа зад M2. За среќа, M2.5 во основа ги реши техничките проблеми и способностите се вратија во нормална насока. Во споредба со M2, напредокот на M2.5 е околу 17%.
Сепак, дел од напредокот е постигнат преку подолги синџири на размислување и подлабока експлорација на просторот за решенија. Просечната потрошувачка на токени на M2.5 е рангирана на 6-то место меѓу сите модели кои се тестираат, речиси двојно повеќе од конкурентот Sonnet. За среќа, компјутерската моќ на 稀宇 е загарантирана, а трошоците не се високи. Иако програмирањето не може целосно да го замени Sonnet без мртви точки, тоа е целосно употребливо за секојдневна употреба. M2.5 конечно ја постигна целта што M2.1 сакаше да ја постигне.
Логички резултати

*1 За да се истакне споредбата, табелата прикажува само дел од моделите за споредба, а не целосно рангирање.
*2 За прашањата и методите на тестирање, видете: Големи јазични модели - Хоризонтална проценка на логичките способности, месечен извештај 26-01. Додадено е прашање бр. 56.
*3 Целосната листа се ажурира на https://llm2014.github.io/llm_benchmark/
*4 Црвената боја е ограничена за време на Пролетниот фестивал, што означува прослава и нема друго значење.
Бидејќи M2.1 е верзија со грешки и исклучително ниски логички способности, во продолжение ќе се направи само споредба помеѓу M2 и M2.5.
Подобрувања
- Стабилно заклучување: M2.5 може да ги задржи почетните ограничувања и контекстуалните детали во подолг процес на заклучување, така што некои проблеми кои не се многу тешки, но бараат „фокус“, M2.5 постигнуваат значително подобри резултати. На пример, #4 ротација на коцка на Рубик, M2.5 е 8-ми модел во светот кој добил максимален резултат. Но, за вакви проблеми, големите тројца во Северна Америка можат стабилно да добијат максимален резултат, додека M2.5 може да го направи тоа само со мала веројатност, што е очигледна разлика.
- Програмирање: Како што споменавме претходно, M2.5 не може сеопфатно да го замени Sonnet, главно поради ограниченото знаење за програмирање. Во случаи кога се потребни искуство, вештини, разлики во верзиите на API итн., M2.5 тешко може сам да ги открие проблемите без навестувања и обично се потребни повеќе рунди за постепено да се намали проблемот. Но, ова е огромен напредок во споредба со M2. Во тестот за C проекти, повеќето национални модели ќе заглават во првите 2 рунди, додека M2.5 стана првиот национален модел што проби до 8-та рунда. Иако M2.5 има очигледни недостатоци во користењето на OpenGL и просторната имагинација, во комбинација со оптимизираните способности на Agent, може постојано да пробува и да греши, конвергирајќи кон правилно решение. Исто така, вреди да се напомене дека кога M2.5 работи на програмирање, тој „зборува“ помалку, речиси само дава краток преглед откако конечно ќе ја заврши работата и не ги дава своите мисли на половина пат. Другите проекти сè уште се тестираат и ќе бидат ажурирани подоцна.
- Пресметковна моќ: Пресметковната моќ на M2 не е одлична, а M2.1 е уште полоша. M2.5 направи ефективни подобрувања на ниска почетна точка. Во повеќето едноставни пресметки, M2.5 има мала веројатност за висока прецизност, но во повеќето случаи сè уште има грешки во пресметките, големи грешки и неразбирање на формулите. Обуката во овој поглед сè уште е недоволна. Како модел управуван од Agent, пресметковната моќ не е неопходна, а пресметките на серијата Claude исто така долго време заостануваат.
Недостатоци
- Следење на инструкции: Во споредба со M2, подобрувањето во следењето на инструкциите не е големо. Веројатноста за добивање максимален резултат за некои едноставни проблеми е поголема, но исто така не е стабилна. Има случаи на случајно отфрлање или менување на инструкциите, но набљудувајќи ја содржината на синџирот на размислување, моделот ги забележал сите инструкции, но имало проблем со конечниот излез. Севкупните перформанси заостануваат зад другите модели од првиот ешалон. Во програмирањето, исто така, има случаи на игнорирање на барањата за кодирање и стандардите на проектот. На пример, во C проектот е наведено дека оската Z е насочена нагоре, но M2.5 самоволно ја смени во оска Y за да поправи друга грешка. Потребно е дополнително внимание на контролата во секојдневната употреба.
- Халуцинации: Нивото на халуцинации на M2.5 нема значителна промена во споредба со M2. Максималните резултати на двата модели се исти за повеќето проблеми поврзани со контекстот. Дури и на #43 проблемот со пресметување на целниот број, M2.5 ќе направи некои ниски грешки што ќе ги направат моделите од вториот ешалон, како што е повторна употреба на броеви или пропуштање броеви.
Сајбер историчарот вели
Домашните производители потрошија повеќе од половина година истражувајќи како треба да се направат моделите за програмирање. Најраните модели кои тврдеа дека се рамноправни со Sonnet изгледаа блиску само во ефектот на генерирање „една реченица“. Нивната внатрешна организација на кодот, инженеринг и, што е уште поважно, способноста за повеќекратна итерација се далеку од тоа. Ова, исто така, ги прави домашните програмери генерално да не им веруваат на домашните модели и претпочитаат да го користат Claude, дури и со ризик да бидат блокирани.
Со првичните пресврти на угледот на MiniMax M2 и M2.1, генерацијата M2.5 го придвижи напред употребливоста на програмирањето на домашните модели. Навистина, M2.5 сè уште има сеопфатна разлика со нивото Opus што го тврди официјално, но сè додека има луѓе кои се подготвени да веруваат и да користат, работите ќе се движат во добра насока. Од оваа гледна точка, M2.5 е навистина солиден чекор што 稀宇 го направи кон победничката цел.





