Обзор 稀宇 MiniMax M2.5

2/14/2026
4 min read

Обзор 稀宇 MiniMax M2.5

Краткий вывод: Укореняемся внизу, растем вверх

Основная информация

Предыдущее поколение 稀宇 M2.1 из-за технических проблем, хотя и показало значительный прогресс в программировании, отставало в логических способностях от M2. К счастью, M2.5 в основном решила технические проблемы, и способности вернулись в нормальное русло. По сравнению с M2, прогресс M2.5 составляет примерно 17%.

Однако часть прогресса достигается за счет более длинных цепочек рассуждений и более глубокого исследования пространства решений. Среднее потребление токенов M2.5 занимает 6-е место среди всех тестируемых моделей, что почти в 2 раза больше, чем у конкурента Sonnet. К счастью, вычислительные мощности 稀宇 гарантированы, а стоимость невысока. Хотя программирование не может полностью заменить Sonnet, для повседневного использования оно вполне пригодно. M2.5 в конечном итоге достигла целей, которые ставила перед собой M2.1.

Логические результаты

Таблица логических результатов

*1 Таблица показывает только часть сопоставимых моделей для выделения контраста, а не полную сортировку.

*2 Вопросы и методы тестирования см.: 大语言模型-逻辑能力横评 26-01 月榜. Добавлен вопрос #56.

*3 Полный список обновляется на https://llm2014.github.io/llm_benchmark/

*4 Красный цвет ограничен периодом китайского Нового года, что означает радость и не имеет другого значения.

Поскольку M2.1 является версией с ошибками и аномально низкими логическими способностями, в дальнейшем будет проводиться только межпоколенческое сравнение M2 и M2.5.

Улучшения

  • Стабильный вывод: M2.5 может поддерживать начальные ограничения и детали контекста в течение более длительного процесса рассуждений, поэтому некоторые несложные, но требующие "внимания" вопросы, M2.5 решает со значительно более высоким баллом. Например, #4 вращение кубика Рубика, M2.5 является 8-й моделью в мире, получившей максимальный балл. Но такие вопросы, как правило, стабильно решаются на максимальный балл североамериканской "большой тройкой", в то время как M2.5 может правильно ответить только с небольшой вероятностью, что указывает на значительную разницу.
  • Программирование: Как упоминалось ранее, M2.5 не может полностью заменить Sonnet, в основном из-за ограниченного объема знаний в программировании. В ситуациях, требующих опыта, навыков, различий в версиях API и т. д., M2.5 трудно самостоятельно обнаружить проблему без подсказок, и обычно требуется несколько раундов, чтобы постепенно сузить проблему. Но это уже огромный прогресс по сравнению с M2. В C 工程测试 (тестировании C-проектов) большинство отечественных моделей застревают в первых 2 раундах, а M2.5 стала первой отечественной моделью, прорвавшейся к 8-му раунду. Хотя у M2.5 есть явные недостатки в использовании OpenGL и пространственном воображении, в сочетании с оптимизированными возможностями Agent (агента), она может постоянно пробовать и ошибаться, сходясь к правильному решению. Также стоит отметить, что при программировании M2.5 меньше "говорит", почти только после окончательного завершения работы выдает краткое резюме, не выводя мысли в процессе. Другие проекты все еще находятся в стадии тестирования и будут обновлены позже.
  • Вычислительные способности: Вычислительные способности M2 нельзя назвать выдающимися, а M2.1 и вовсе сделала шаг назад. M2.5 добилась эффективных улучшений на низком старте. В большинстве простых вычислений M2.5 с небольшой вероятностью выдает высокую точность, но в большинстве случаев все еще допускает ошибки, большие погрешности и не понимает формулы. Обучения в этой области по-прежнему недостаточно. Как для модели, управляемой Agent (агентом), вычислительные способности не являются острой необходимостью, и вычисления Claude (серии Claude) также долгое время отставали.

Недостатки

  • Следование инструкциям: По сравнению с M2, улучшение в следовании инструкциям невелико. Вероятность получения максимального балла по некоторым простым вопросам выше, но также нестабильна. Существуют случаи случайного отбрасывания или изменения инструкций, но, наблюдая за содержанием цепочки рассуждений, модель замечает все инструкции, но в конечном итоге возникают проблемы с выводом. Общая производительность отстает от других моделей первого эшелона. В программировании также возникают случаи игнорирования требований к кодированию и стандартов проекта, например, в C 工程 (C-проекте) указано, что ось Z направлена вверх, но M2.5 самовольно изменила ее на ось Y, чтобы исправить другую ошибку. При повседневном использовании необходимо уделять дополнительное внимание контролю.
  • Галлюцинации: Уровень галлюцинаций M2.5 существенно не изменился по сравнению с M2. По большинству контекстно-зависимых вопросов предельные баллы у обеих моделей одинаковы. Даже в #43 目标数计算问题 (задаче вычисления целевого числа) M2.5 допускает некоторые низкоуровневые ошибки, которые допускают модели второго эшелона, такие как повторное использование чисел и пропуск чисел.

Кибер-летописец говорит

Отечественные производители потратили полгода на изучение того, как правильно создавать модели программирования. Самые первые модели, которые назывались заменой Sonnet, в основном были похожи только по эффекту генерации "одной фразы". Их внутренняя организация кода, инженерия и, что более важно, возможности многократной итерации намного хуже. Это также привело к тому, что отечественные программисты в целом не доверяют отечественным моделям и предпочитают использовать Claude, даже рискуя блокировкой учетной записи.

И с тех пор, как MiniMax M2 и M2.1 предварительно изменили общественное мнение, поколение M2.5 продвинуло пригодность отечественных моделей для программирования на шаг вперед. Действительно, M2.5 все еще имеет всесторонние недостатки по сравнению с заявленным уровнем Opus, но пока есть люди, которые готовы доверять и использовать ее, ситуация будет развиваться в лучшую сторону. Исходя из этого, M2.5 действительно является твердым шагом 稀宇 к победной цели.

Published in Technology

You Might Also Like

Как использовать технологии облачных вычислений: Полное руководство по созданию вашей первой облачной инфраструктурыTechnology

Как использовать технологии облачных вычислений: Полное руководство по созданию вашей первой облачной инфраструктуры

Как использовать технологии облачных вычислений: Полное руководство по созданию вашей первой облачной инфраструктуры Вве...

Предупреждение! Отец Claude Code прямо говорит: через месяц без режима планирования титул программиста исчезнетTechnology

Предупреждение! Отец Claude Code прямо говорит: через месяц без режима планирования титул программиста исчезнет

Предупреждение! Отец Claude Code прямо говорит: через месяц без режима планирования титул программиста исчезнет Недавно...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

Топ 10 AI агентов 2026 года: анализ ключевых преимуществTechnology

Топ 10 AI агентов 2026 года: анализ ключевых преимуществ

Топ 10 AI агентов 2026 года: анализ ключевых преимуществ Введение С быстрым развитием искусственного интеллекта AI агент...

Рекомендации по 10 лучшим инструментам ИИ на 2026 год: раскрытие истинного потенциала искусственного интеллектаTechnology

Рекомендации по 10 лучшим инструментам ИИ на 2026 год: раскрытие истинного потенциала искусственного интеллекта

Рекомендации по 10 лучшим инструментам ИИ на 2026 год: раскрытие истинного потенциала искусственного интеллекта В эпоху ...

Топ 10 инструментов и ресурсов AWS на 2026 годTechnology

Топ 10 инструментов и ресурсов AWS на 2026 год

Топ 10 инструментов и ресурсов AWS на 2026 год В быстро развивающейся области облачных вычислений Amazon Web Services (A...