Tathmini ya MiniMax M2.5 ya Xiyu
Tathmini ya MiniMax M2.5 ya Xiyu
Hitimisho fupi: Mizizi chini, ukuaji juu
Hali ya Msingi
M2.1 ya kizazi kilichopita cha Xiyu, kutokana na matatizo ya kiufundi, ingawa ilikuwa na maendeleo makubwa katika programu, uwezo wake wa kimantiki ulikuwa nyuma ya M2. Kwa bahati nzuri, M2.5 kimsingi imetatua matatizo ya kiufundi, na uwezo wake umerejea katika hali ya kawaida. Ikilinganishwa na M2, maendeleo ya M2.5 ni takriban 17%.
Lakini sehemu ya maendeleo inatokana na mnyororo mrefu wa mawazo na uchunguzi wa kina wa nafasi ya suluhisho. Wastani wa matumizi ya Tokeni ya M2.5 inaweza kushika nafasi ya 6 kwa juu kati ya mifumo yote iliyojaribiwa, karibu mara 2 ya mpinzani Sonnet. Kwa bahati nzuri, nguvu ya kompyuta ya Xiyu imehakikishwa, na gharama si kubwa. Ingawa programu haiwezi kuchukua nafasi ya Sonnet bila dosari, inapatikana kabisa kwa matumizi ya kila siku. M2.5 hatimaye imefikia lengo ambalo M2.1 ilitaka kufikia.
Alama za Kimantiki

*1 Jedwali linaonyesha tu sehemu ya mifumo inayoweza kulinganishwa ili kuangazia uhusiano wa kulinganisha, si mpangilio kamili.
*2 Kwa maswali na mbinu za majaribio, angalia: Tathmini ya Kulinganisha ya Uwezo wa Kimantiki wa Mifumo Mikuu ya Lugha - Orodha ya Mwezi wa 26-01. Swali #56 limeongezwa.
*3 Orodha kamili inasasishwa katika https://llm2014.github.io/llm_benchmark/
*4 Rangi nyekundu ni ya muda mfupi wakati wa Tamasha la Spring, inawakilisha sherehe, haina maana nyingine.
Kwa kuwa M2.1 ni toleo lenye hitilafu na uwezo wa kimantiki wa chini sana, ulinganisho wa kizazi kati ya M2 na M2.5 pekee utafanywa hapa chini.
Maboresho
- Utoaji hoja thabiti: M2.5 inaweza kudumisha vikwazo vya awali na maelezo ya muktadha katika mchakato mrefu wa kutoa hoja, kwa hivyo baadhi ya maswali ambayo si magumu sana lakini yanahitaji "umakini", alama za M2.5 zimeongezeka kwa kiasi kikubwa. Kwa mfano, #4 mzunguko wa Rubik's Cube, M2.5 ni mfumo wa 8 duniani kupata alama kamili. Lakini kwa maswali ya aina hii, familia tatu kubwa za Amerika Kaskazini zinaweza kupata alama kamili kwa uthabiti, wakati M2.5 inaweza tu kupata alama kamili mara moja kwa uwezekano mdogo, pengo ni dhahiri.
- Programu: Kama ilivyoelezwa hapo awali, M2.5 haiwezi kuchukua nafasi ya Sonnet kwa njia zote, hasa kutokana na kiasi kidogo cha ujuzi wa programu. Katika matukio ambayo yanahitaji uzoefu, ujuzi, tofauti za API za toleo, nk, M2.5 hawezi kupata matatizo yenyewe bila vidokezo, na kwa kawaida inahitaji mizunguko mingi ili kupunguza tatizo hatua kwa hatua. Lakini hii tayari ni maendeleo makubwa kuliko M2. Katika majaribio ya mradi wa C, mifumo mingi ya kitaifa itakwama katika mizunguko 2 ya kwanza, wakati M2.5 inakuwa mfumo wa kwanza wa kitaifa kuvunja hadi mzunguko wa 8. Ingawa M2.5 ina mapungufu dhahiri katika matumizi ya OpenGL na mawazo ya anga, pamoja na uwezo wa Agent ulioboreshwa, inaweza kujaribu na kukosea mara kwa mara, na kuunganisha kwenye suluhisho sahihi. Pia ni muhimu kuzingatia kwamba wakati M2.5 inafanya kazi ya programu, "inasema" kidogo, na karibu hutoa muhtasari mfupi tu baada ya kukamilisha kazi hatimaye, na haitoi mawazo katikati. Miradi mingine bado inajaribiwa na itasasishwa baadaye.
- Uwezo wa kukokotoa: Uwezo wa kukokotoa wa M2 hauchukuliwi kuwa bora, na M2.1 ilizidi kuwa mbaya zaidi. M2.5 imefanya maboresho madhubuti katika hatua ya chini. Katika hesabu nyingi rahisi, M2.5 ina uwezekano mdogo wa usahihi wa juu, na katika hali nyingi bado kuna matatizo ya hesabu zisizo sahihi, makosa makubwa, na kutoelewa fomula. Mafunzo katika eneo hili bado hayatoshi. Kama mfumo unaoendeshwa na Agent, uwezo wa kukokotoa si lazima, na hesabu za mfululizo wa Claude pia zimekuwa nyuma kwa muda mrefu.
Upungufu
- Ufuatiliaji wa maagizo: Ikilinganishwa na M2, uboreshaji katika ufuatiliaji wa maagizo si mkubwa. Uwezekano wa kupata alama kamili kwa maswali rahisi ni wa juu, lakini hauwezi kuwa thabiti. Kuna matukio ya kuacha maagizo kwa nasibu au kubadilisha maagizo, lakini kwa kuangalia maudhui ya mnyororo wa mawazo, mfumo umezingatia maagizo yote, na matatizo yanaonekana katika pato la mwisho. Utendaji wa jumla uko nyuma ya mifumo mingine katika safu ya kwanza. Katika programu, pia kuna matukio ya kupuuza mahitaji ya usimbaji na kanuni za mradi. Kwa mfano, mradi wa C unaeleza kuwa mhimili wa Z unaelekea juu, lakini M2.5 ilibadilisha kwa ruhusa mhimili wa Y kwa sababu ilitaka kurekebisha hitilafu nyingine. Tahadhari ya ziada inahitajika kwa matumizi ya kila siku.
- Udanganyifu: Kiwango cha udanganyifu cha M2.5 hakina mabadiliko makubwa ikilinganishwa na M2. Alama za kikomo za matatizo mengi yanayohusiana na muktadha ni sawa. Hata katika tatizo la hesabu ya nambari lengwa #43, M2.5 pia itafanya makosa ya kiwango cha chini kama vile kutumia nambari mara kwa mara na kukosa nambari ambazo mifumo ya safu ya pili tu itafanya.
Mwanahistoria wa Mtandao Anasema
Watengenezaji wa ndani wametumia zaidi ya nusu mwaka kuchunguza jinsi ya kufanya mfumo wa programu. Kundi la kwanza la mifumo inayodaiwa kuwa mbadala ya Sonnet inaonekana kuwa karibu tu katika athari ya uzalishaji wa "sentensi moja". Shirika lake la ndani la msimbo, uhandisi, na muhimu zaidi, uwezo wa kurudia mara nyingi ni duni sana. Hii pia inafanya programu za ndani kwa ujumla kutoamini mifumo ya kitaifa, na wanapendelea kutumia Claude kwa hatari ya kufungiwa akaunti.
Na kwa kuwa MiniMax M2 na M2.1 zimebadilisha maoni ya umma kwa mara ya kwanza, kizazi cha M2.5 kimeendeleza utumiaji wa programu ya kitaifa hatua kubwa mbele. Hakika, M2.5 bado ina pengo kamili na kiwango cha Opus kilichotangazwa rasmi, lakini mradi tu kuna mtu anayetaka kuamini na kutumia, mambo yataendelea katika mwelekeo mzuri. Kwa hivyo, M2.5 kwa kweli ni hatua thabiti ambayo Xiyu imechukua kuelekea lengo la ushindi.





