稀宇 MiniMax M2.5 Review
稀宇 MiniMax M2.5 Review
Korte conclusie: Naar beneden wortelen, omhoog groeien
Basis situatie
De vorige generatie M2.1 van 稀宇 had technische problemen, waardoor de logische vaardigheden achterbleven bij M2, ondanks aanzienlijke vooruitgang op het gebied van programmeren. Gelukkig heeft M2.5 de technische problemen grotendeels opgelost, waardoor de capaciteiten weer op het normale spoor zijn. Vergeleken met M2 is de vooruitgang van M2.5 ongeveer 17%.
Een deel van de vooruitgang is echter te danken aan langere denkketens en diepere exploratie van de oplossingsruimte. Het gemiddelde Token-verbruik van M2.5 staat op de 6e plaats van alle geteste modellen, bijna het dubbele van de concurrent Sonnet. Gelukkig is de rekenkracht van 稀宇 gegarandeerd en zijn de kosten niet hoog. Hoewel programmeren Sonnet niet volledig kan vervangen, is het voor dagelijks gebruik volledig bruikbaar. M2.5 heeft uiteindelijk het doel bereikt dat M2.1 wilde bereiken.
Logische resultaten

*1 Om de vergelijkingsrelatie te benadrukken, toont de tabel slechts een deel van de vergelijkbare modellen, niet de volledige rangschikking.
*2 Zie voor vragen en testmethoden: 大语言模型-逻辑能力横评 26-01 月榜. Nieuwe vraag #56.
*3 De volledige lijst wordt bijgewerkt op https://llm2014.github.io/llm_benchmark/
*4 Rood is beperkt tot de periode van het Chinese Nieuwjaar, wat feestelijkheid aangeeft en geen andere betekenis heeft.
Omdat M2.1 een versie was met een bug en een abnormaal lage logische capaciteit, wordt in het volgende alleen een generatievergelijking gemaakt tussen M2 en M2.5.
Verbeteringen
- Stabiele redenering: M2.5 kan initiële beperkingen en contextuele details behouden tijdens langere redeneerprocessen, dus sommige problemen die niet moeilijk zijn, maar wel "focus" vereisen, scoren aanzienlijk hoger bij M2.5. Bijvoorbeeld #4 魔方旋转 (Rubik's Cube rotatie), M2.5 is het 8e model ter wereld dat een perfecte score behaalt. Maar dit soort problemen kunnen de Noord-Amerikaanse Big Three (御三家) allemaal stabiel perfect scoren, terwijl M2.5 slechts een kleine kans heeft om het één keer goed te doen, een duidelijk verschil.
- Programmeren: Zoals eerder vermeld, kan M2.5 Sonnet niet volledig vervangen, voornamelijk vanwege de beperkte hoeveelheid programmeerkennis. In situaties die ervaring, vaardigheden, versie-API-verschillen enz. vereisen, kan M2.5 moeilijk zelf problemen ontdekken zonder aanwijzingen, en zijn er meestal meerdere rondes nodig om het probleem geleidelijk te verkleinen. Maar dit is al een enorme vooruitgang ten opzichte van M2. In de C 工程 (C-project) test zullen de meeste Chinese modellen vastlopen in de eerste 2 rondes, terwijl M2.5 het eerste Chinese model is dat doorbreekt naar de 8e ronde. Hoewel M2.5 duidelijke tekortkomingen heeft in het gebruik van OpenGL en ruimtelijke verbeeldingskracht, kan het, in combinatie met geoptimaliseerde Agent-mogelijkheden, voortdurend vallen en opstaan om naar de juiste oplossing te convergeren. Het is ook vermeldenswaard dat M2.5 minder "praat" tijdens het programmeren, en bijna alleen een korte samenvatting geeft nadat het werk is voltooid, zonder halverwege ideeën te uiten. Andere projecten worden nog getest en zullen later worden bijgewerkt.
- Rekenkracht: De rekenkracht van M2 was niet uitstekend, en M2.1 was zelfs een achteruitgang. M2.5 heeft effectieve verbeteringen aangebracht vanaf een laag startpunt. Bij de meeste eenvoudige berekeningen heeft M2.5 een kleine kans op hoge precisie, maar in de meeste gevallen zijn er nog steeds fouten, grote fouten en problemen met het begrijpen van formules. De training op dit gebied is nog steeds onvoldoende. Als een door Agent aangedreven model is rekenkracht geen vereiste, en de berekeningen van de Claude-serie zijn ook lange tijd achtergebleven.
Tekortkomingen
- Instructie volgen: Vergeleken met M2 is de verbetering in het volgen van instructies niet groot. De kans om een perfecte score te behalen bij sommige eenvoudige problemen is groter, maar het is nog steeds niet stabiel. Er is sprake van het willekeurig weggooien of wijzigen van instructies, maar bij het observeren van de inhoud van de denkketen merkt het model alle instructies op, maar treden er problemen op met de uiteindelijke output. De algehele prestatie blijft achter bij andere modellen in de eerste tier. Bij het programmeren zijn er ook gevallen waarin codevereisten en projectspecificaties worden genegeerd. In het C 工程 (C-project) is bijvoorbeeld gespecificeerd dat de Z-as naar boven wijst, maar M2.5 heeft deze eigenmachtig gewijzigd in de Y-as om een andere bug op te lossen. Bij dagelijks gebruik is extra aandacht nodig voor controle.
- Hallucinaties: Het hallucinatieniveau van M2.5 is niet significant veranderd ten opzichte van M2. De maximale scores van beide zijn consistent bij de meeste contextgerelateerde problemen. Zelfs bij #43 目标数计算 (doelaantal berekening) probleem, zal M2.5 nog steeds enkele elementaire problemen maken die modellen van de tweede tier zouden maken, zoals het herhaaldelijk gebruiken van cijfers of het missen van cijfers.
De Cyber Geschiedschrijver zegt
Binnenlandse fabrikanten hebben meer dan een half jaar besteed aan het onderzoeken van hoe programmeermodellen moeten worden gemaakt. De eerste batch modellen die beweerden Sonnet te kunnen vervangen, leken alleen qua "één zin" generatie-effect op elkaar. De interne code-organisatie, engineering en, nog belangrijker, de multi-iteratieve capaciteit waren verre van vergelijkbaar. Dit heeft ertoe geleid dat Chinese programmeurs over het algemeen geen vertrouwen hebben in Chinese modellen en liever Claude gebruiken, zelfs met het risico op een ban.
Terwijl MiniMax M2 en M2.1 de publieke opinie aanvankelijk ombogen, heeft M2.5 de bruikbaarheid van Chinese modellen voor programmeren een grote stap voorwaarts gebracht. Inderdaad, M2.5 heeft nog steeds een alomvattend verschil met het door de officiële instanties geclaimde Opus-niveau, maar zolang er mensen zijn die vertrouwen hebben en bereid zijn om het te gebruiken, zullen de dingen ten goede veranderen. Vanuit dit perspectief is M2.5 inderdaad een solide stap van 稀宇 in de richting van het overwinningsobjectief.





