Оценка на XiYu MiniMax M2.5

2/14/2026
5 min read

Оценка на XiYu MiniMax M2.5

Кратко заключение: Вкореняване надолу, израстване нагоре

Основни данни

Предходното поколение M2.1 на XiYu, поради технически проблеми, въпреки значителния напредък в програмирането, изоставаше в логическите способности от M2. За щастие, M2.5 основно реши техническите проблеми и способностите се върнаха в нормален коловоз. В сравнение с M2, напредъкът на M2.5 е приблизително 17%.

Въпреки това, част от напредъка е постигнат чрез по-дълги вериги на мислене и по-задълбочено изследване на пространството на решенията. Средната консумация на токени на M2.5 е на 6-то място сред всички тествани модели, почти 2 пъти повече от тази на конкурента Sonnet. За щастие, изчислителната мощ на XiYu е гарантирана и цената не е висока. Въпреки че програмирането не може да замени Sonnet безпроблемно, то е напълно приложимо за ежедневна употреба. M2.5 най-накрая постигна целта, която M2.1 искаше да постигне.

Логически резултати

Таблица с логически резултати

*1 За да се подчертае връзката на сравнение, таблицата показва само част от моделите за сравнение, а не пълно подреждане.

*2 За въпроси и методи на тестване вижте: Голям езиков модел - Хоризонтална оценка на логическите способности, месечен списък 26-01. Добавен въпрос #56.

*3 Пълният списък се актуализира на https://llm2014.github.io/llm_benchmark/

*4 Червеното е ограничено за периода на Пролетния фестивал, което показва радост и няма други значения.

Тъй като M2.1 е версия с бъгове и изключително ниски логически способности, следващият текст ще направи само междупоколентно сравнение между M2 и M2.5.

Подобрения

  • Стабилно разсъждение: M2.5 може да поддържа първоначалните ограничения и детайли от контекста в по-дълги процеси на разсъждение, така че някои проблеми, които не са трудни, но изискват "концентрация", M2.5 получава значително по-високи резултати. Например, #4 въртене на кубчето на Рубик, M2.5 е 8-ият модел в света, който получава максимален резултат. Но за този тип проблеми, голямата тройка в Северна Америка може стабилно да получи максимален резултат, докато M2.5 може да го направи само с малка вероятност веднъж, което е очевидна разлика.
  • Програмиране: Както беше споменато по-горе, M2.5 не може да замени Sonnet във всички аспекти, главно поради ограниченията на количеството знания за програмиране. В случаи, които изискват опит, умения, разлики във версиите на API и т.н., M2.5 трудно може да открие проблеми сам без подсказки и обикновено отнема няколко кръга, за да се стесни постепенно проблемът. Но това е огромен напредък в сравнение с M2. В C инженерните тестове повечето национални модели ще заседнат в първите 2 кръга, докато M2.5 стана първият национален модел, който проби до 8-ия кръг. Въпреки че M2.5 има очевидни недостатъци в използването на OpenGL и пространственото въображение, в комбинация с оптимизираните Agent способности, той може непрекъснато да опитва и греши, за да се сближи с правилното решение. Също така, заслужава да се отбележи, че когато M2.5 работи по програмиране, той "говори" по-малко, като почти само извежда кратко обобщение, след като най-накрая завърши работата, и не извежда мисли по средата. Други инженерни проекти все още се тестват и ще бъдат актуализирани по-късно.
  • Изчислителни способности: Изчислителните способности на M2 не са отлични, а M2.1 е още по-лош. M2.5 направи ефективни подобрения на ниска отправна точка. В повечето прости изчисления M2.5 има малка вероятност за висока точност, но в повечето случаи все още има грешки, големи грешки и неразбиране на формулите. Обучението в тази област все още е недостатъчно. Като модел, задвижван от Agent, изчислителните способности не са задължителни, а изчисленията на серията Claude също отдавна изостават.

Недостатъци

  • Следване на инструкции: В сравнение с M2, увеличението в следването на инструкции не е голямо. Вероятността за получаване на максимален резултат за някои прости проблеми е по-висока, но също така не може да бъде стабилна. Има случаи на произволно отхвърляне или промяна на инструкции, но наблюдавайки съдържанието на веригата на мислене, моделът е забелязал всички инструкции, но в крайна сметка има проблеми с изхода. Общата производителност изостава от другите модели от първия ешелон. В програмирането също ще има случаи на пренебрегване на изискванията за кодиране и проектните спецификации. Например, в C инженерния проект е посочено, че оста Z е насочена нагоре, но M2.5 самоволно я промени на оста Y, за да поправи друг бъг. Ежедневната употреба изисква допълнително внимание към контрола.
  • Халюцинации: Нивото на халюцинации на M2.5 не се е променило значително в сравнение с M2. За повечето проблеми, свързани с контекста, пределните резултати на двата са еднакви. Дори при #43 проблема с изчисляването на целевия брой, M2.5 също ще прави някои нискокачествени проблеми, които ще се появят само при модели от втория ешелон, като многократно използване на числа и пропускане на числа.

Кибер историкът казва

Националните производители прекараха повече от половин година в проучване как трябва да се правят модели за програмиране. Най-ранните модели, за които се твърди, че са заместители на Sonnet, изглеждат близки само по отношение на ефекта на генериране на "едно изречение". Тяхната вътрешна организация на кода, инженеринг и, което е по-важно, възможностите за многократна итерация са далеч по-ниски. Това също така прави националните програмисти като цяло да не се доверяват на националните модели и предпочитат да използват Claude, дори и с риска от блокиране на акаунта.

И с първоначалното обръщане на репутацията от MiniMax M2 и M2.1, поколението M2.5 придвижи напред използваемостта на националното програмиране с голяма стъпка. Наистина, M2.5 все още има всеобхватна разлика с официално заявеното ниво на Opus, но докато има хора, които са готови да се доверят и да използват, нещата ще се развият в положителна посока. От тази гледна точка, M2.5 наистина е солидна стъпка, която XiYu направи към победната цел.

Published in Technology

You Might Also Like

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктураTechnology

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктура

Как да използвате облачни технологии: Пълен наръчник за изграждане на вашата първа облачна инфраструктура Въведение С ус...

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезнеTechnology

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезне

Предупреждение! Бащата на Claude Code открито заявява: След месец, без Plan Mode, титлата софтуерен инженер ще изчезне ...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 С развитието на дълбокото обучение в различни области, все повече учебни ресурси и инструменти се ...

2026年 Top 10 AI 代理:核心卖点解析Technology

2026年 Top 10 AI 代理:核心卖点解析

2026年 Top 10 AI 代理:核心卖点解析 引言 С бързото развитие на изкуствения интелект, AI агенти (AI Agents) станаха гореща тема в тех...

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 В днешния ден, когато технологиите напредват с бързи темпове, изкуственият интелект (AI...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 В бързо развиващата се област на облачните изчисления, Amazon Web Services (AWS) винаги е била л...