Efter at have testet MiniMax M2.5, begyndte jeg at tvivle på, om jeg skulle forny mit Claude-abonnement...
MiniMax M2.5 er ude! Jeg var hurtig til at tilslutte Claude Code og teste den.
Denne gang er det virkelig anderledes, MiniMax's officielle resultater er ret eksplosive.
SWE-Bench Verified fik 80,2%, Multi-SWE-Bench flersproget programmering er direkte nummer et, og BrowseComp's søgeevne er også på SOTA-niveau med 76,3%.
OpenClaw-grundlæggeren Peter Steinberger har tidligere anbefalet MiniMax-serien af modeller i interviews flere gange. Denne gang, da M2.5 kom ud, videresendte han direkte et indlæg:
\Jeg krævede en KOL-forretningssamarbejdsplatform, der skulle have et dashboard med influencer-data, der viser fans' demografi og priser, et intelligent matchningssystem, hvor brands kan indtaste deres behov og få AI til at anbefale passende KOL'er, en kalender der visuelt viser planlagte aktiviteter for de næste tre måneder, et bibliotek med kontraktskabeloner og datatrackingsrapporter.
Den visuelle stil skulle ligne Instagram-kortlayout kombineret med et B2B SaaS-dashboard.
Dens tilgang er mere systematisk end det første case.
Først blev funktionsmodulerne nedbrudt, og undersystemerne datapanel, matchningsalgoritme, kalenderkomponent og dokumentstyring blev designet separat.
Derefter blev de forbundet i frontend ved hjælp af et kortstrømslayout, og backend-logikken blev kørt igennem hele processen ved hjælp af simulerede data.
Det interessante er, at når den laver den intelligente matchningsfunktion, vil den proaktivt designe en forenklet version af anbefalingsalgoritmen. Selvom det ikke er en rigtig maskinlæringsmodel, kan logikken baseret på tagmatchning allerede vise kernekonceptet.
Hele projektet tog cirka 20 minutter at udvikle. Med denne grad af kompleksitet ville det næsten tage et udviklingsteam en eller to måneder at færdiggøre.
Og jeg må sige, at denne evne er enormt værdifuld for iværksættere.
Hvis du har en forretningsidé og hurtigt vil lave en MVP for at validere markedet, kan du bruge denne metode til først at bygge en produktprototype og derefter beslutte, om du vil investere ressourcer i formel udvikling.

Case 3: Online uddannelsesplatform for ny kinesisk æstetik
I det tredje case vil jeg prøve dens præstation inden for kulturel og kreativ retning. Denne type behov involverer ikke kun funktionsimplementering, men også æstetik og atmosfære, hvilket ofte er AI's svaghed.
Jeg bad om at lave en hjemmeside til online kinesisk klassisk uddannelsesplatform Time Academy, der skulle have en ny kinesisk æstetik. Farverne skulle være off-white, blækfarve og cinnoberrød gradient, baggrunden skulle vise kalligrafiværker eller blækmalerier af landskaber, med en partikelspredningseffekt. Elementer fra gamle bøger som bambusstrimler og segl skulle integreres, og teksten skulle være sat lodret i Song-skrifttype. Hver kursusvisningsboks skulle ligne en syet bog, og baggrunden skulle afspille guqin- eller teceremonivideoer. Den overordnede atmosfære skulle være elegant og rolig, som at smage te og diskutere Dao i et studie.
Under udførelsen viste den en forståelse for kulturelle symboler.
Ud over at implementere den grundlæggende visuelle stil, vil den også gøre en indsats i detaljerne, såsom at tilføje en vandfarveovergangsanimation til sideskift, tilføje segl-stil tags til kursuskort og endda udløse en penselskriftsti-animation, når musen svæver over den.
Disse små detaljer giver hele siden ånd, og det er ikke længere en kold samling af kode.
Resultatet var, at jeg sendte denne demo til en ven, der arbejder med kulturel kommunikation, og hendes første reaktion var at spørge mig, hvilket designfirma jeg havde hyret.
Da jeg fortalte hende, at det var lavet af AI, troede hun det slet ikke.
Så jeg sagde, at AI's udviklingshastighed på det æstetiske plan kan være undervurderet. Den efterligner ikke kun menneskeligt design, men forstår virkelig kulturel konnotation og følelsesmæssigt udtryk.

Konklusion
Efter at have testet disse cases, føler jeg, at MiniMax M2.5's evne på udførelsesniveau er virkelig stærk.
Den kan forstå komplekse krav, planlægge opgaver selv og er latterligt hurtig. Den officielle udtalelse er, at inferenshastigheden er 3 gange Opus, og jeg føler, at det er rigtigt efter at have testet den.
Hvis du også ofte bliver trukket ned af trivielle ting på udførelsesniveau, anbefales det stærkt, at du tester det selv. API-grænsefladen er nu også åben. Det vigtigste er at se, om den virkelig kan integreres i din arbejdsgang.
Ærligt talt er AI på dette udviklingsstadie ikke længere et spørgsmål om, hvorvidt det kan bruges, men om, hvordan det skal bruges.Kom hurtigt i gang, få fordelene tidligt.





