Оценка на XiYu MiniMax M2.5

Кратко заключение: Вкореняване надолу, израстване нагоре

Основни данни

Предходното поколение M2.1 на XiYu, поради технически проблеми, въпреки значителния напредък в програмирането, изоставаше в логическите способности от M2. За щастие, M2.5 основно реши техническите проблеми и способностите се върнаха в нормален коловоз. В сравнение с M2, напредъкът на M2.5 е приблизително 17%.

Въпреки това, част от напредъка е постигнат чрез по-дълги вериги на мислене и по-задълбочено изследване на пространството на решенията. Средната консумация на токени на M2.5 е на 6-то място сред всички тествани модели, почти 2 пъти повече от тази на конкурента Sonnet. За щастие, изчислителната мощ на XiYu е гарантирана и цената не е висока. Въпреки че програмирането не може да замени Sonnet безпроблемно, то е напълно приложимо за ежедневна употреба. M2.5 най-накрая постигна целта, която M2.1 искаше да постигне.

Логически резултати

Таблица с логически резултати

*1 За да се подчертае връзката на сравнение, таблицата показва само част от моделите за сравнение, а не пълно подреждане.

*2 За въпроси и методи на тестване вижте: Голям езиков модел - Хоризонтална оценка на логическите способности, месечен списък 26-01. Добавен въпрос #56.

*3 Пълният списък се актуализира на https://llm2014.github.io/llm_benchmark/

*4 Червеното е ограничено за периода на Пролетния фестивал, което показва радост и няма други значения.

Тъй като M2.1 е версия с бъгове и изключително ниски логически способности, следващият текст ще направи само междупоколентно сравнение между M2 и M2.5.

Подобрения

Стабилно разсъждение: M2.5 може да поддържа първоначалните ограничения и детайли от контекста в по-дълги процеси на разсъждение, така че някои проблеми, които не са трудни, но изискват "концентрация", M2.5 получава значително по-високи резултати. Например, #4 въртене на кубчето на Рубик, M2.5 е 8-ият модел в света, който получава максимален резултат. Но за този тип проблеми, голямата тройка в Северна Америка може стабилно да получи максимален резултат, докато M2.5 може да го направи само с малка вероятност веднъж, което е очевидна разлика.
Програмиране: Както беше споменато по-горе, M2.5 не може да замени Sonnet във всички аспекти, главно поради ограниченията на количеството знания за програмиране. В случаи, които изискват опит, умения, разлики във версиите на API и т.н., M2.5 трудно може да открие проблеми сам без подсказки и обикновено отнема няколко кръга, за да се стесни постепенно проблемът. Но това е огромен напредък в сравнение с M2. В C инженерните тестове повечето национални модели ще заседнат в първите 2 кръга, докато M2.5 стана първият национален модел, който проби до 8-ия кръг. Въпреки че M2.5 има очевидни недостатъци в използването на OpenGL и пространственото въображение, в комбинация с оптимизираните Agent способности, той може непрекъснато да опитва и греши, за да се сближи с правилното решение. Също така, заслужава да се отбележи, че когато M2.5 работи по програмиране, той "говори" по-малко, като почти само извежда кратко обобщение, след като най-накрая завърши работата, и не извежда мисли по средата. Други инженерни проекти все още се тестват и ще бъдат актуализирани по-късно.
Изчислителни способности: Изчислителните способности на M2 не са отлични, а M2.1 е още по-лош. M2.5 направи ефективни подобрения на ниска отправна точка. В повечето прости изчисления M2.5 има малка вероятност за висока точност, но в повечето случаи все още има грешки, големи грешки и неразбиране на формулите. Обучението в тази област все още е недостатъчно. Като модел, задвижван от Agent, изчислителните способности не са задължителни, а изчисленията на серията Claude също отдавна изостават.

Недостатъци

Следване на инструкции: В сравнение с M2, увеличението в следването на инструкции не е голямо. Вероятността за получаване на максимален резултат за някои прости проблеми е по-висока, но също така не може да бъде стабилна. Има случаи на произволно отхвърляне или промяна на инструкции, но наблюдавайки съдържанието на веригата на мислене, моделът е забелязал всички инструкции, но в крайна сметка има проблеми с изхода. Общата производителност изостава от другите модели от първия ешелон. В програмирането също ще има случаи на пренебрегване на изискванията за кодиране и проектните спецификации. Например, в C инженерния проект е посочено, че оста Z е насочена нагоре, но M2.5 самоволно я промени на оста Y, за да поправи друг бъг. Ежедневната употреба изисква допълнително внимание към контрола.
Халюцинации: Нивото на халюцинации на M2.5 не се е променило значително в сравнение с M2. За повечето проблеми, свързани с контекста, пределните резултати на двата са еднакви. Дори при #43 проблема с изчисляването на целевия брой, M2.5 също ще прави някои нискокачествени проблеми, които ще се появят само при модели от втория ешелон, като многократно използване на числа и пропускане на числа.

Кибер историкът казва

Националните производители прекараха повече от половин година в проучване как трябва да се правят модели за програмиране. Най-ранните модели, за които се твърди, че са заместители на Sonnet, изглеждат близки само по отношение на ефекта на генериране на "едно изречение". Тяхната вътрешна организация на кода, инженеринг и, което е по-важно, възможностите за многократна итерация са далеч по-ниски. Това също така прави националните програмисти като цяло да не се доверяват на националните модели и предпочитат да използват Claude, дори и с риска от блокиране на акаунта.

И с първоначалното обръщане на репутацията от MiniMax M2 и M2.1, поколението M2.5 придвижи напред използваемостта на националното програмиране с голяма стъпка. Наистина, M2.5 все още има всеобхватна разлика с официално заявеното ниво на Opus, но докато има хора, които са готови да се доверят и да използват, нещата ще се развият в положителна посока. От тази гледна точка, M2.5 наистина е солидна стъпка, която XiYu направи към победната цел.

Оценка на XiYu MiniMax M2.5

Оценка на XiYu MiniMax M2.5

Основни данни

Логически резултати

Подобрения

Недостатъци

Кибер историкът казва

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

AI Browser 24小时稳定运行指南