Qi Yu MiniMax M2.5 Dib u Eegis
Qi Yu MiniMax M2.5 Dib u Eegis
Gunaanad gaaban: Xididada hoos u qodo, korna u kor.
Xaaladda Aasaasiga ah
Jiilkii hore ee Qi Yu, M2.1, ayaa sabab u ahayd dhibaatooyin farsamo, inkastoo horumar la taaban karo laga sameeyay dhanka barnaamijyada, haddana awoodda macquulka ah ayaa ka dambeysay M2. Nasiib wanaag, M2.5 ayaa asal ahaan xallisay dhibaatooyinka farsamo, awoodduna waxay ku soo laabatay wadadii caadiga ahayd. Marka la barbar dhigo M2, horumarka M2.5 wuxuu ku dhow yahay 17%.
Si kastaba ha ahaatee, qayb ka mid ah horumarka waxaa lagu kasbaday silsilado fikir oo dheer iyo sahamin qoto dheer oo xalalka ah. Celceliska isticmaalka Token ee M2.5 wuxuu ku jiraa kaalinta 6-aad ee ugu sarreysa dhammaan moodellada la tijaabiyay, taasoo ku dhow laba jeer kan tartamayaasha Sonnet. Nasiib wanaag, awoodda xisaabeed ee Qi Yu waa la damaanad qaaday, qiimuhuna ma sarreeyo. Inkastoo barnaamijyadu aysan awoodin inay si buuxda u beddelaan Sonnet, haddana isticmaalka maalinlaha ah ayaa gebi ahaanba suurtagal ah. M2.5 ayaa ugu dambeyntii gaartay hadafkii ay M2.1 rabtay inay gaarto.
Dhibcaha Macquulka ah

*1 Jadwalka waxaa loogu talagalay in lagu muujiyo xiriirka isbarbardhigga, waxaana kaliya la soo bandhigay qayb ka mid ah moodellada la barbar dhigi karo, ma aha kala sarreynta oo dhan.
*2 Su'aalaha iyo hababka tijaabada, eeg: Qiimeynta Isbarbardhigga Awoodda Macquulka ah ee Moodellada Luuqadda Waaweyn - Liiska Bisha Janaayo 26-keeda. Su'aal #56 ayaa lagu daray.
*3 Liiska oo dhammaystiran waxaa lagu cusbooneysiiyaa https://llm2014.github.io/llm_benchmark/
*4 Midabka cas wuxuu ku xaddidan yahay xilliga Fasaxa Guga, wuxuuna muujinayaa farxad, macne kale ma leh.
Maadaama M2.1 ay ahayd nooc leh cilad, awoodda macquulkuna ay aad u hooseysay, markaa isbarbardhigga jiilalka dhexdooda ee M2 iyo M2.5 ayaa kaliya lagu sameyn doonaa qoraalka hoose.
Horumarin
- Sabeyn deggan: M2.5 waxay ilaalin kartaa xannibaadaha bilowga ah iyo faahfaahinta macnaha guud inta lagu jiro habka sabeynta dheer, sidaas darteed dhibaatooyinka qaarkood oo aan aad u adagayn, laakiin u baahan "feejignaan", dhibcaha M2.5 si weyn ayaa loo kordhiyay. Tusaale ahaan, #4 wareegga Rubik's Cube, M2.5 waa moodelkii 8-aad ee adduunka oo helay dhibco buuxda. Laakiin dhibaatooyinkan, saddexda shirkadood ee waaweyn ee Waqooyiga Ameerika ayaa si deggan u heli kara dhibco buuxda, halka M2.5 ay kaliya awooddo inay si yar u saxdo hal mar, farqiga ayaa cad.
- Barnaamijyada: Sida kor ku xusan, M2.5 ma awooddo inay si buuxda u beddesho Sonnet, taas oo ugu horreyn ay sabab u tahay xaddidaadda aqoonta barnaamijyada. Goobaha u baahan khibrad, xirfado, kala duwanaanshaha API-ga nooca, iwm., M2.5 way adag tahay inay iyadu iskeed u ogaato dhibaatada iyada oo aan lahayn tilmaamo, badanaa waxay u baahan tahay wareegyo badan si tartiib tartiib ah loo yareeyo dhibaatada. Laakiin tani waa horumar weyn marka loo eego M2. Tijaabada injineernimada C, inta badan moodellada gudaha ayaa ku xayirma wareegyada 2-aad ee hore, halka M2.5 ay noqotay moodelkii ugu horreeyay ee gudaha oo jebiya wareegga 8-aad. Inkastoo M2.5 ay leedahay cillado cad oo ku saabsan isticmaalka OpenGL iyo male-awaalka meel bannaan, haddana iyada oo lagu daray awoodda Wakiilka ee la hagaajiyay, waxay si joogto ah u tijaabin kartaa khaladaadka oo ay ku soo ururin kartaa xalka saxda ah. Waxaa intaa dheer, waxaa xusid mudan in marka M2.5 ay qabato shaqada barnaamijyada, ay "hadal" yar tahay, waxayna ku dhowdahay inay soo saarto soo koobid gaaban ka dib markay ugu dambeyntii dhammeyso shaqada, mana soo saari doonto fikrado inta lagu jiro. Mashaariicda kale ee injineernimada ayaa weli socda tijaabo, waxaana la cusbooneysiin doonaa hadhow.
- Awoodda xisaabinta: Awoodda xisaabinta ee M2 ma ahayn mid aad u fiican, M2.1 xitaa way ka sii dartay, M2.5 waxay samaysay horumar wax ku ool ah oo ku saabsan barta bilowga hoose. Inta badan xisaabaadka fudud, M2.5 waxay u badan tahay inay hesho saxnaan sare, laakiin inta badan waxay weli sameysaa khaladaad, khaladaad waaweyn, mana fahanto qaaciidooyinka. Tababarka dhinacan weli waa mid aan ku filnayn. Maadaama ay tahay moodel ay wado Wakiil, awoodda xisaabintu maaha mid qasab ah, xisaabinta taxanaha Claude ayaa sidoo kale muddo dheer ka dambeysay.
Yaraanta
- Raacitaanka Tilmaamaha: Marka la barbar dhigo M2, kororka raacitaanka tilmaamaha maaha mid aad u weyn. Su'aalaha fudud qaarkood waxay u badan tahay inay helaan dhibco buuxda, laakiin sidoo kale ma xasilloono. Waxaa jira xaalado si aan kala sooc lahayn looga tago tilmaamaha ama wax laga beddelo tilmaamaha, laakiin iyadoo la eegayo waxa ku jira silsiladda fikirka, moodelku wuxuu ogaaday dhammaan tilmaamaha, dhibaatada ugu dambeysana waxay ka soo muuqatay wax soo saarka. Waxqabadka guud wuxuu ka dambeeyaa moodellada kale ee heerka koowaad. Barnaamijyada, waxaa sidoo kale jiri doona xaalado lagu dayaco shuruudaha koodhka iyo heerarka mashruuca. Tusaale ahaan, mashruuca C wuxuu qeexayaa in dhidibka Z uu kor u jeedo, laakiin M2.5 ayaa si aan oggolaansho lahayn u beddelay dhidibka Y si uu u hagaajiyo cilad kale. Isticmaalka maalinlaha ah wuxuu u baahan yahay fiiro gaar ah oo dheeraad ah.
- Halucinations: Heerka hallucinations ee M2.5 si weyn ugama duwana kan M2. Inta badan dhibaatooyinka la xiriira macnaha guud, labaduba waxay leeyihiin dhibco xadidan oo isku mid ah. Xitaa dhibaatada #43 ee xisaabinta tirada bartilmaameedka, M2.5 waxay sidoo kale sameyn doontaa dhibaatooyin hoose oo ah isticmaalka soo noqnoqda ee tirooyinka iyo ka tagista tirooyinka, taas oo ah dhibaatooyin ay sameeyaan moodellada heerka labaad oo keliya.
Taariikhyahan Cyber-ka wuxuu yiri
Soosaarayaasha gudaha waxay ku qaateen in ka badan nus sano sahaminta sida saxda ah ee loo sameeyo moodellada barnaamijyada. Duullimaadyadii ugu horreeyay ee sheegtay inay yihiin beddelka Sonnet waxay u muuqdeen kuwo u dhow oo keliya saameynta abuurista "hal jumlad". Ururinta koodhka gudaha, injineernimada, iyo tan ugu muhiimsan, awoodda ku celcelinta badan ayaa aad uga dambeysa. Tani waxay sidoo kale ka dhigtay barnaamij-sameeyayaasha gudaha inay si caadi ah u aaminaan moodellada gudaha, iyagoo doorbidaya inay isticmaalaan Claude iyagoo wajahaya halista xannibaadda akoonka.
Iyadoo MiniMax M2 iyo M2.1 ay si hordhac ah u rogeen sumcadda, jiilka M2.5 wuxuu horay u sii qaaday helitaanka barnaamijyada moodellada gudaha hal tallaabo oo weyn. Runtii, M2.5 weli waxay leedahay farqi buuxa oo ka dhexeeya heerka Opus ee ay ku dhawaaqday shirkadda, laakiin ilaa iyo inta ay jiraan dad diyaar u ah inay aaminaan oo isticmaalaan, wax walba waxay u socon doonaan dhanka wanaagsan. Marka laga eego aragtidan, M2.5 runtii waa tallaabo adag oo ay Qi Yu u qaaday dhanka hadafkeeda guusha.





