稀宇 MiniMax M2.5 шолуы

Қысқаша қорытынды: Төменге тамыр жайып, жоғарыға өсу

Негізгі жағдай

稀宇-дің алдыңғы буыны M2.1 техникалық мәселелерге байланысты бағдарламалау жағынан айтарлықтай жетістіктерге жеткенімен, логикалық қабілеті M2-ден артта қалды. Бақытымызға орай, M2.5 техникалық мәселелерді негізінен шешіп, қабілеті қалыпты арнаға қайта оралды. M2-мен салыстырғанда, M2.5-тің жетістігі шамамен 17% құрайды.

Дегенмен, жетістіктердің бір бөлігі ұзағырақ ойлау тізбегі, тереңірек шешім кеңістігін зерттеу арқылы алынды, M2.5-тің орташа Token шығыны тексеріліп жатқан барлық модельдер арасында 6-шы орында, бұл қарсылас Sonnet-тен дерлік 2 есе көп. Бақытымызға орай, 稀宇-дің есептеу қуаты қамтамасыз етілген және құны да жоғары емес, бағдарламалау Sonnet-ті толықтай алмастыра алмаса да, күнделікті пайдалануға толықтай жарамды. M2.5 ақыр соңында M2.1 жеткісі келген мақсатқа жетті.

Логикалық нәтижелер

Логикалық нәтижелер кестесі

*1 Кесте салыстыру қатынасын көрсету үшін тек кейбір салыстыруға болатын модельдерді көрсетеді, толық реттеу емес.

*2 Сұрақтар мен тестілеу әдістері үшін қараңыз: Үлкен тілдік модель - Логикалық қабілетті салыстыру 26-01 айлық рейтингі. #56 сұрақ қосылды.

*3 Толық тізім https://llm2014.github.io/llm_benchmark/ сайтында жаңартылады

*4 Қызыл түс Көктем мерекесі кезінде шектеулі, бұл қуанышты білдіреді, басқа мағынасы жоқ.

M2.1 қатесі бар, логикалық қабілеті өте төмен нұсқа болғандықтан, төменде тек M2 және M2.5-тің буындар арасындағы салыстыруы жасалады.

Жақсартулар

Тұрақты тұжырымдама: M2.5 бастапқы шектеулер мен контексттік мәліметтерді ұзағырақ тұжырымдау процесінде сақтай алады, сондықтан қиындығы жоғары емес, бірақ "назар аударуды" қажет ететін кейбір мәселелерде M2.5-тің ұпайы айтарлықтай артты. Мысалы, #4 Кубик Рубикті айналдыру, M2.5 - әлемдегі толық ұпай алған 8-ші модель. Бірақ бұл мәселелерде Солтүстік Американың үздік үштігі тұрақты түрде толық ұпай ала алады, ал M2.5 тек аз ғана ықтималдықпен бір рет дұрыс жауап бере алады, айырмашылық айқын.
Бағдарламалау: Жоғарыда айтылғандай, M2.5 Sonnet-ті жан-жақты алмастыра алмайды, бұл негізінен бағдарламалау білімінің көлемімен шектеледі, тәжірибе, шеберлік, нұсқа API айырмашылықтары және т.б. қажет болған жағдайда, M2.5 ескертусіз мәселені өздігінен табуы қиын, әдетте бірнеше айналым жұмсап, мәселені біртіндеп азайту керек. Бірақ бұл M2-мен салыстырғанда үлкен жетістік. C жобалық тестілеуінде көптеген отандық модельдер алғашқы 2 айналымда тоқтап қалады, ал M2.5 8-ші айналымға өткен алғашқы отандық модель болды, M2.5-тің OpenGL пайдалануы мен кеңістіктік қиялында айқын кемшіліктері болса да, оңтайландырылған Agent қабілетімен үйлесімділікте, ол үнемі қателесіп, дұрыс шешімге жинақталуы мүмкін. Сонымен қатар, M2.5 бағдарламалау жұмысын жасаған кезде, "сөзі" аз, жұмысты аяқтағаннан кейін ғана қысқаша қорытынды шығарады, жолда ойларын шығармайды. Басқа жобалар әлі де тестілеуде, кейіннен жаңартылады.
Есептеу қабілеті: M2-нің есептеу қабілетін керемет деп айтуға болмайды, ал M2.1 одан да нашарлады, M2.5 төменгі нүктеден тиімді жақсартулар жасады. Көптеген қарапайым есептеулерде M2.5 аз ықтималдықпен жоғары дәлдікке ие, көп жағдайда қате есептеу, үлкен қателіктер және формуланы түсінбеу мәселелері бар, бұл жағынан жаттығу әлі де жеткіліксіз. Agent басқарылатын модель ретінде, есептеу қабілеті міндетті емес, Claude сериясының есептеуі де ұзақ уақыт бойы артта қалды.

Кемшіліктер

Нұсқауларды орындау: M2-мен салыстырғанда, нұсқауларды орындаудың жақсаруы үлкен емес, кейбір қарапайым мәселелерде толық ұпай алу ықтималдығы жоғары, бірақ тұрақты емес. Нұсқауларды кездейсоқ тастап кету немесе нұсқауларды өзгерту жағдайлары бар, бірақ ойлау тізбегінің мазмұнын бақылай отырып, модель барлық нұсқауларды байқаған, соңғы шығарылымда мәселе пайда болған. Жалпы өнімділік бірінші эшелонның басқа модельдерінен артта қалады. Бағдарламалауда кодтау талаптарын, жобалық нормаларды елемеу жағдайлары да кездеседі, мысалы, C жобасында Z осі жоғары бағытталған деп көрсетілген, бірақ M2.5 басқа қатені түзету үшін өз бетінше Y осіне өзгертті. Күнделікті пайдалануда қосымша бақылауға назар аудару керек.
Галлюцинация: M2.5-тің галлюцинация деңгейі M2-ден айтарлықтай өзгерген жоқ, көптеген контекстке байланысты мәселелерде екеуінің шекті ұпайлары бірдей. Тіпті #43 мақсатты санды есептеу мәселесінде M2.5 екінші эшелон модельдері ғана жасайтын сандарды қайта пайдалану, сандарды жіберіп алу сияқты төмен деңгейлі қателіктер жасайды.

Кибер тарихшы айтады

Отандық өндірушілер бағдарламалау моделін қалай жасау керектігін зерттеуге жарты жылдан астам уақыт жұмсады, алғашқы Sonnet-тің орнын басатын модельдердің көпшілігі тек "бір сөйлемдік" генерациялау әсерінде ғана жақын болып көрінеді. Оның ішкі кодты ұйымдастыруы, инженериясы және одан да маңыздысы көп айналымды итерациялау қабілеті одан әлдеқайда төмен. Бұл отандық бағдарламашылардың отандық модельдерге сенімсіздік танытуына әкелді, олар Claude-ді пайдалану үшін аккаунтты бұғаттау қаупіне қарамастан пайдалануға дайын.

MiniMax M2, M2.1 алғашқы пікірді өзгерткеннен кейін, M2.5 буыны отандық модельдердің бағдарламалауға жарамдылығын бір қадам алға жылжытты. Шынында да, M2.5-тің ресми түрде жарияланған Opus деңгейімен жан-жақты айырмашылығы бар, бірақ егер біреу сенуге дайын болса, пайдалануға дайын болса, онда жағдай жақсы жаққа өзгереді. Осыған қарағанда, M2.5 шынымен де 稀宇-дің жеңіске жету мақсатына қарай жасаған сенімді қадамы.

稀宇 MiniMax M2.5 шолуы

稀宇 MiniMax M2.5 шолуы

Негізгі жағдай

Логикалық нәтижелер

Жақсартулар

Кемшіліктер

Кибер тарихшы айтады

You Might Also Like

Claude Code Buddy өзгерту нұсқаулығы: қалай жарқыраған аңыз деңгейіндегі питомец алуға болады

Obsidian Defuddle-ды шығарды, Obsidian Web Clipper-ді жаңа деңгейге көтерді

OpenAI кенеттен "үш бірлікті" жариялады: браузер + бағдарламалау + ChatGPT бірігуі, ішкі деңгейде өткен жылы қателескенін мойындады

2026, өзіңізді "тәртіпке" мәжбүрлемеңіз! Бұл 8 кішігірім істі орындаңыз, денсаулық өздігінен келеді

Салмақ тастауға тырысқан, бірақ арықтай алмай жүрген аналар, мүлдем осында құлайды

AI Browser 24 сағат тұрақты жұмыс істеу нұсқаулығы