MiniMax M2.5:n testauksen jälkeen aloin epäillä, pitäisikö minun uusia Claude-tilaukseni...
MiniMax M2.5 on julkaistu! Testasin sen heti Claude Codella.
Tällä kertaa on todella erilaista, MiniMaxin viralliset tulokset ovat melko räjähtäviä.
SWE-Bench Verified sai 80,2 %, Multi-SWE-Bench monikielinen ohjelmointi on suoraan ykkönen, BrowseComp hakukyky on myös 76,3 % SOTA-tasolla.
OpenClaw:n perustaja Peter Steinberger oli aiemmin haastatteluissa suositellut useita kertoja MiniMax-sarjan malleja, ja tällä kertaa M2.5:n julkaisun jälkeen hän jakoi suoraan viestin:
\Pyysin luomaan KOL-kaupallisen yhteistyöalustan, jossa on vaikuttajien datanäkymä, joka näyttää seuraajien profiilit ja hinnat, älykäs täsmäytysjärjestelmä, jonka avulla brändit voivat syöttää vaatimuksensa ja AI suosittelee sopivia KOL:eja, aikataulukalenteri, joka näyttää tulevien kolmen kuukauden aikataulut, sekä sopimusmallikirjasto ja dataseurantaraportit.
Visuaalisen tyylin pitäisi olla kuin Instagram-korttiasettelu yhdistettynä B2B SaaS -kojelautatyyliin.
Sen käsittelytapa on järjestelmällisempi kuin ensimmäisessä tapauksessa.
Ensin purettiin toiminnalliset moduulit ja suunniteltiin erikseen datanäkymä, täsmäytysalgoritmi, kalenterikomponentti ja dokumentinhallintajärjestelmä.
Sitten ne yhdistettiin etupäässä korttivirta-asettelulla ja takapään logiikka ajettiin läpi koko prosessin simuloidulla datalla.
On mielenkiintoista, että älykkään täsmäytystoiminnon luomisessa se suunnitteli aktiivisesti yksinkertaistetun suositusalgoritmin. Vaikka se ei olekaan todellinen koneoppimismalli, se pystyy jo esittelemään ydinkonseptin tagien täsmäytykseen perustuvan logiikan avulla.
Koko projekti kesti noin 20 minuuttia. Tämän tason monimutkaisuus vaatisi kehitystiimiltä lähes pari kuukautta.
Ja minun on sanottava, että tällä kyvyllä on valtava arvo yrittäjille.
Jos sinulla on liikeidea ja haluat nopeasti luoda MVP:n markkinoiden validoimiseksi, voit täysin käyttää tätä tapaa tuotteen prototyypin rakentamiseen ensin ja päättää sitten, haluatko investoida resursseja viralliseen kehitykseen.

Case 3: Uuden kiinalaisen estetiikan online-koulutusalusta
Kolmannessa tapauksessa halusin kokeilla sen suorituskykyä kulttuuriluovalla alalla. Tällaiset vaatimukset eivät koske vain toiminnallisuuden toteuttamista, vaan myös estetiikkaa ja tunnelman luomista, mikä on usein tekoälyn heikkous.
Pyysin luomaan verkkosivuston Shiguang Academy -nimiselle online-kiinalaisen klassisen koulutusalustalle, jossa on uusi kiinalainen estetiikka. Värimaailman pitäisi olla kermanvalkoinen, musta ja sinooperinpunainen liukuvärjäys, taustalla kalligrafiateoksia tai mustemaalauksia ja hiukkasten leviämisefekti. Yhdistä bambukirjakääröjä ja sinettejä näihin muinaisiin kirjaelementteihin ja käytä Song-fonttia pystysuuntaisessa asettelussa tekstissä. Jokaisen kurssin esittelykehyksen pitäisi olla kuin lankasidottu kirja, ja taustalla pitäisi soida guqin- tai teeseremoniavideoita. Yleisen tunnelman pitäisi olla hienostunut ja rauhallinen, kuin teehuoneessa keskustelemassa.
Suorituksen aikana se osoitti ymmärrystä kulttuurisista symboleista.
Perusvisuaalisen tyylin toteuttamisen lisäksi se tekee myös yksityiskohtia, kuten lisäämällä sivunvaihtoihin musteen leviämisen siirtymäanimaatioita, lisäämällä kurssikortteihin sinettityylisiä tageja ja jopa laukaisemalla siveltimellä kirjoitetun polkuanimaation, kun hiiri viedään päälle.
Nämä pienet ajatukset antavat koko sivulle henkeä, eikä se ole enää kylmää koodin kasaamista.
Lopputuloksena lähetin tämän demon kulttuuriviestintää tekevälle ystävälleni, ja hänen ensimmäinen reaktionsa oli kysyä, minkä suunnittelutoimiston olin palkannut.
Kun kerroin hänelle, että sen oli tehnyt tekoäly, hän ei uskonut sitä ollenkaan.
Siksi sanon, että tekoälyn esteettisen tason kehitysnopeutta on ehkä aliarvioitu. Se ei vain jäljittele ihmisen suunnittelua, vaan se todella ymmärtää kulttuurista sisältöä ja tunneilmaisua.

Yhteenveto
Näiden tapausten testaamisen jälkeen minusta tuntuu, että MiniMax M2.5:n suorituskyky on todella kovaa luokkaa.
Se ymmärtää monimutkaisia vaatimuksia, pystyy suunnittelemaan tehtävän vaiheet itse ja on lisäksi naurettavan nopea. Virallisten tietojen mukaan päättelynopeus on 3 kertaa Opus:n nopeus, ja testieni perusteella se pitää paikkansa.
Jos sinuakin usein hidastavat suoritustason pikkujutut, suosittelen lämpimästi testaamaan sitä itse. API-rajapinta on nyt myös avattu, ja tärkeintä on nähdä, voiko se todella integroitua työnkulkuusi.
Rehellisesti sanottuna tekoälyn kehitys on tässä vaiheessa edennyt siihen, että kyse ei ole enää siitä, voiko sitä käyttää, vaan siitä, osataanko sitä käyttää.Aloita aikaisin, hyödy aikaisin.





