稀宇 MiniMax M2.5 шолуы

2/14/2026
4 min read

稀宇 MiniMax M2.5 шолуы

Қысқаша қорытынды: Төменге тамыр жайып, жоғарыға өсу

Негізгі жағдай

稀宇-дің алдыңғы буыны M2.1 техникалық мәселелерге байланысты бағдарламалау жағынан айтарлықтай жетістіктерге жеткенімен, логикалық қабілеті M2-ден артта қалды. Бақытымызға орай, M2.5 техникалық мәселелерді негізінен шешіп, қабілеті қалыпты арнаға қайта оралды. M2-мен салыстырғанда, M2.5-тің жетістігі шамамен 17% құрайды.

Дегенмен, жетістіктердің бір бөлігі ұзағырақ ойлау тізбегі, тереңірек шешім кеңістігін зерттеу арқылы алынды, M2.5-тің орташа Token шығыны тексеріліп жатқан барлық модельдер арасында 6-шы орында, бұл қарсылас Sonnet-тен дерлік 2 есе көп. Бақытымызға орай, 稀宇-дің есептеу қуаты қамтамасыз етілген және құны да жоғары емес, бағдарламалау Sonnet-ті толықтай алмастыра алмаса да, күнделікті пайдалануға толықтай жарамды. M2.5 ақыр соңында M2.1 жеткісі келген мақсатқа жетті.

Логикалық нәтижелер

Логикалық нәтижелер кестесі

*1 Кесте салыстыру қатынасын көрсету үшін тек кейбір салыстыруға болатын модельдерді көрсетеді, толық реттеу емес.

*2 Сұрақтар мен тестілеу әдістері үшін қараңыз: Үлкен тілдік модель - Логикалық қабілетті салыстыру 26-01 айлық рейтингі. #56 сұрақ қосылды.

*3 Толық тізім https://llm2014.github.io/llm_benchmark/ сайтында жаңартылады

*4 Қызыл түс Көктем мерекесі кезінде шектеулі, бұл қуанышты білдіреді, басқа мағынасы жоқ.

M2.1 қатесі бар, логикалық қабілеті өте төмен нұсқа болғандықтан, төменде тек M2 және M2.5-тің буындар арасындағы салыстыруы жасалады.

Жақсартулар

  • Тұрақты тұжырымдама: M2.5 бастапқы шектеулер мен контексттік мәліметтерді ұзағырақ тұжырымдау процесінде сақтай алады, сондықтан қиындығы жоғары емес, бірақ "назар аударуды" қажет ететін кейбір мәселелерде M2.5-тің ұпайы айтарлықтай артты. Мысалы, #4 Кубик Рубикті айналдыру, M2.5 - әлемдегі толық ұпай алған 8-ші модель. Бірақ бұл мәселелерде Солтүстік Американың үздік үштігі тұрақты түрде толық ұпай ала алады, ал M2.5 тек аз ғана ықтималдықпен бір рет дұрыс жауап бере алады, айырмашылық айқын.
  • Бағдарламалау: Жоғарыда айтылғандай, M2.5 Sonnet-ті жан-жақты алмастыра алмайды, бұл негізінен бағдарламалау білімінің көлемімен шектеледі, тәжірибе, шеберлік, нұсқа API айырмашылықтары және т.б. қажет болған жағдайда, M2.5 ескертусіз мәселені өздігінен табуы қиын, әдетте бірнеше айналым жұмсап, мәселені біртіндеп азайту керек. Бірақ бұл M2-мен салыстырғанда үлкен жетістік. C жобалық тестілеуінде көптеген отандық модельдер алғашқы 2 айналымда тоқтап қалады, ал M2.5 8-ші айналымға өткен алғашқы отандық модель болды, M2.5-тің OpenGL пайдалануы мен кеңістіктік қиялында айқын кемшіліктері болса да, оңтайландырылған Agent қабілетімен үйлесімділікте, ол үнемі қателесіп, дұрыс шешімге жинақталуы мүмкін. Сонымен қатар, M2.5 бағдарламалау жұмысын жасаған кезде, "сөзі" аз, жұмысты аяқтағаннан кейін ғана қысқаша қорытынды шығарады, жолда ойларын шығармайды. Басқа жобалар әлі де тестілеуде, кейіннен жаңартылады.
  • Есептеу қабілеті: M2-нің есептеу қабілетін керемет деп айтуға болмайды, ал M2.1 одан да нашарлады, M2.5 төменгі нүктеден тиімді жақсартулар жасады. Көптеген қарапайым есептеулерде M2.5 аз ықтималдықпен жоғары дәлдікке ие, көп жағдайда қате есептеу, үлкен қателіктер және формуланы түсінбеу мәселелері бар, бұл жағынан жаттығу әлі де жеткіліксіз. Agent басқарылатын модель ретінде, есептеу қабілеті міндетті емес, Claude сериясының есептеуі де ұзақ уақыт бойы артта қалды.

Кемшіліктер

  • Нұсқауларды орындау: M2-мен салыстырғанда, нұсқауларды орындаудың жақсаруы үлкен емес, кейбір қарапайым мәселелерде толық ұпай алу ықтималдығы жоғары, бірақ тұрақты емес. Нұсқауларды кездейсоқ тастап кету немесе нұсқауларды өзгерту жағдайлары бар, бірақ ойлау тізбегінің мазмұнын бақылай отырып, модель барлық нұсқауларды байқаған, соңғы шығарылымда мәселе пайда болған. Жалпы өнімділік бірінші эшелонның басқа модельдерінен артта қалады. Бағдарламалауда кодтау талаптарын, жобалық нормаларды елемеу жағдайлары да кездеседі, мысалы, C жобасында Z осі жоғары бағытталған деп көрсетілген, бірақ M2.5 басқа қатені түзету үшін өз бетінше Y осіне өзгертті. Күнделікті пайдалануда қосымша бақылауға назар аудару керек.
  • Галлюцинация: M2.5-тің галлюцинация деңгейі M2-ден айтарлықтай өзгерген жоқ, көптеген контекстке байланысты мәселелерде екеуінің шекті ұпайлары бірдей. Тіпті #43 мақсатты санды есептеу мәселесінде M2.5 екінші эшелон модельдері ғана жасайтын сандарды қайта пайдалану, сандарды жіберіп алу сияқты төмен деңгейлі қателіктер жасайды.

Кибер тарихшы айтады

Отандық өндірушілер бағдарламалау моделін қалай жасау керектігін зерттеуге жарты жылдан астам уақыт жұмсады, алғашқы Sonnet-тің орнын басатын модельдердің көпшілігі тек "бір сөйлемдік" генерациялау әсерінде ғана жақын болып көрінеді. Оның ішкі кодты ұйымдастыруы, инженериясы және одан да маңыздысы көп айналымды итерациялау қабілеті одан әлдеқайда төмен. Бұл отандық бағдарламашылардың отандық модельдерге сенімсіздік танытуына әкелді, олар Claude-ді пайдалану үшін аккаунтты бұғаттау қаупіне қарамастан пайдалануға дайын.

MiniMax M2, M2.1 алғашқы пікірді өзгерткеннен кейін, M2.5 буыны отандық модельдердің бағдарламалауға жарамдылығын бір қадам алға жылжытты. Шынында да, M2.5-тің ресми түрде жарияланған Opus деңгейімен жан-жақты айырмашылығы бар, бірақ егер біреу сенуге дайын болса, пайдалануға дайын болса, онда жағдай жақсы жаққа өзгереді. Осыған қарағанда, M2.5 шынымен де 稀宇-дің жеңіске жету мақсатына қарай жасаған сенімді қадамы.

Published in Technology

You Might Also Like

Бұлтты есептеу технологиясын қалай пайдалану керек: Сіздің алғашқы бұлттық инфрақұрылымыңызды құруға арналған толық нұсқаулықTechnology

Бұлтты есептеу технологиясын қалай пайдалану керек: Сіздің алғашқы бұлттық инфрақұрылымыңызды құруға арналған толық нұсқаулық

Бұлтты есептеу технологиясын қалай пайдалану керек: Сіздің алғашқы бұлттық инфрақұрылымыңызды құруға арналған толық нұсқ...

Ескерту! Claude Code-тың әкесі ашық айтты: 1 айдан кейін Plan Mode қолданылмайды, бағдарламалық инженер атағы жоғаладыTechnology

Ескерту! Claude Code-тың әкесі ашық айтты: 1 айдан кейін Plan Mode қолданылмайды, бағдарламалық инженер атағы жоғалады

Ескерту! Claude Code-тың әкесі ашық айтты: 1 айдан кейін Plan Mode қолданылмайды, бағдарламалық инженер атағы жоғалады ...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

2026 жылғы Топ 10 AI агенттері: Негізгі артықшылықтарды талдауTechnology

2026 жылғы Топ 10 AI агенттері: Негізгі артықшылықтарды талдау

2026 жылғы Топ 10 AI агенттері: Негізгі артықшылықтарды талдау Кіріспе Жасанды интеллекттің жылдам дамуы арқасында AI аг...

2026 жыл: Топ 10 AI құралдары ұсынысы: Жасанды интеллектінің шынайы әлеуетін ашуTechnology

2026 жыл: Топ 10 AI құралдары ұсынысы: Жасанды интеллектінің шынайы әлеуетін ашу

2026 жыл: Топ 10 AI құралдары ұсынысы: Жасанды интеллектінің шынайы әлеуетін ашу Технологияның жылдам дамып жатқан бүгін...

2026 жылғы AWS құралдары мен ресурстарының 10 үздігіTechnology

2026 жылғы AWS құралдары мен ресурстарының 10 үздігі

2026 жылғы AWS құралдары мен ресурстарының 10 үздігі Жылдам дамып келе жатқан бұлтты есептеу саласында Amazon Web Servic...