Обзор 稀宇 MiniMax M2.5

Краткий вывод: Укореняемся внизу, растем вверх

Основная информация

Предыдущее поколение 稀宇 M2.1 из-за технических проблем, хотя и показало значительный прогресс в программировании, отставало в логических способностях от M2. К счастью, M2.5 в основном решила технические проблемы, и способности вернулись в нормальное русло. По сравнению с M2, прогресс M2.5 составляет примерно 17%.

Однако часть прогресса достигается за счет более длинных цепочек рассуждений и более глубокого исследования пространства решений. Среднее потребление токенов M2.5 занимает 6-е место среди всех тестируемых моделей, что почти в 2 раза больше, чем у конкурента Sonnet. К счастью, вычислительные мощности 稀宇 гарантированы, а стоимость невысока. Хотя программирование не может полностью заменить Sonnet, для повседневного использования оно вполне пригодно. M2.5 в конечном итоге достигла целей, которые ставила перед собой M2.1.

Логические результаты

Таблица логических результатов

*1 Таблица показывает только часть сопоставимых моделей для выделения контраста, а не полную сортировку.

*2 Вопросы и методы тестирования см.: 大语言模型-逻辑能力横评 26-01 月榜. Добавлен вопрос #56.

*3 Полный список обновляется на https://llm2014.github.io/llm_benchmark/

*4 Красный цвет ограничен периодом китайского Нового года, что означает радость и не имеет другого значения.

Поскольку M2.1 является версией с ошибками и аномально низкими логическими способностями, в дальнейшем будет проводиться только межпоколенческое сравнение M2 и M2.5.

Улучшения

Стабильный вывод: M2.5 может поддерживать начальные ограничения и детали контекста в течение более длительного процесса рассуждений, поэтому некоторые несложные, но требующие "внимания" вопросы, M2.5 решает со значительно более высоким баллом. Например, #4 вращение кубика Рубика, M2.5 является 8-й моделью в мире, получившей максимальный балл. Но такие вопросы, как правило, стабильно решаются на максимальный балл североамериканской "большой тройкой", в то время как M2.5 может правильно ответить только с небольшой вероятностью, что указывает на значительную разницу.
Программирование: Как упоминалось ранее, M2.5 не может полностью заменить Sonnet, в основном из-за ограниченного объема знаний в программировании. В ситуациях, требующих опыта, навыков, различий в версиях API и т. д., M2.5 трудно самостоятельно обнаружить проблему без подсказок, и обычно требуется несколько раундов, чтобы постепенно сузить проблему. Но это уже огромный прогресс по сравнению с M2. В C 工程测试 (тестировании C-проектов) большинство отечественных моделей застревают в первых 2 раундах, а M2.5 стала первой отечественной моделью, прорвавшейся к 8-му раунду. Хотя у M2.5 есть явные недостатки в использовании OpenGL и пространственном воображении, в сочетании с оптимизированными возможностями Agent (агента), она может постоянно пробовать и ошибаться, сходясь к правильному решению. Также стоит отметить, что при программировании M2.5 меньше "говорит", почти только после окончательного завершения работы выдает краткое резюме, не выводя мысли в процессе. Другие проекты все еще находятся в стадии тестирования и будут обновлены позже.
Вычислительные способности: Вычислительные способности M2 нельзя назвать выдающимися, а M2.1 и вовсе сделала шаг назад. M2.5 добилась эффективных улучшений на низком старте. В большинстве простых вычислений M2.5 с небольшой вероятностью выдает высокую точность, но в большинстве случаев все еще допускает ошибки, большие погрешности и не понимает формулы. Обучения в этой области по-прежнему недостаточно. Как для модели, управляемой Agent (агентом), вычислительные способности не являются острой необходимостью, и вычисления Claude (серии Claude) также долгое время отставали.

Недостатки

Следование инструкциям: По сравнению с M2, улучшение в следовании инструкциям невелико. Вероятность получения максимального балла по некоторым простым вопросам выше, но также нестабильна. Существуют случаи случайного отбрасывания или изменения инструкций, но, наблюдая за содержанием цепочки рассуждений, модель замечает все инструкции, но в конечном итоге возникают проблемы с выводом. Общая производительность отстает от других моделей первого эшелона. В программировании также возникают случаи игнорирования требований к кодированию и стандартов проекта, например, в C 工程 (C-проекте) указано, что ось Z направлена вверх, но M2.5 самовольно изменила ее на ось Y, чтобы исправить другую ошибку. При повседневном использовании необходимо уделять дополнительное внимание контролю.
Галлюцинации: Уровень галлюцинаций M2.5 существенно не изменился по сравнению с M2. По большинству контекстно-зависимых вопросов предельные баллы у обеих моделей одинаковы. Даже в #43 目标数计算问题 (задаче вычисления целевого числа) M2.5 допускает некоторые низкоуровневые ошибки, которые допускают модели второго эшелона, такие как повторное использование чисел и пропуск чисел.

Кибер-летописец говорит

Отечественные производители потратили полгода на изучение того, как правильно создавать модели программирования. Самые первые модели, которые назывались заменой Sonnet, в основном были похожи только по эффекту генерации "одной фразы". Их внутренняя организация кода, инженерия и, что более важно, возможности многократной итерации намного хуже. Это также привело к тому, что отечественные программисты в целом не доверяют отечественным моделям и предпочитают использовать Claude, даже рискуя блокировкой учетной записи.

И с тех пор, как MiniMax M2 и M2.1 предварительно изменили общественное мнение, поколение M2.5 продвинуло пригодность отечественных моделей для программирования на шаг вперед. Действительно, M2.5 все еще имеет всесторонние недостатки по сравнению с заявленным уровнем Opus, но пока есть люди, которые готовы доверять и использовать ее, ситуация будет развиваться в лучшую сторону. Исходя из этого, M2.5 действительно является твердым шагом 稀宇 к победной цели.

Обзор 稀宇 MiniMax M2.5

Обзор 稀宇 MiniMax M2.5

Основная информация

Логические результаты

Улучшения

Недостатки

Кибер-летописец говорит

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

AI Browser 24小时稳定运行指南