Хиюү MiniMax M2.5 Үнэлгээ
Хиюү MiniMax M2.5 Үнэлгээ
Товч дүгнэлт: Доошоо үндэслэж, дээшээ өсөх
Үндсэн нөхцөл байдал
Хиюүгийн өмнөх үеийн M2.1 нь техникийн асуудлаас болоод програмчлалын хувьд мэдэгдэхүйц ахиц дэвшил гарсан ч логик чадвараараа M2-оос хоцорсон. Аз болоход M2.5 нь техникийн асуудлыг үндсэндээ шийдэж, чадвар нь хэвийн хэмжээнд эргэн орсон. M2-той харьцуулахад M2.5-ын ахиц нь ойролцоогоор 17% байна.
Гэсэн хэдий ч ахицын зарим хэсэг нь илүү урт сэтгэлгээний хэлхээ, илүү гүнзгий шийдлийн орон зайг судлах замаар олдсон. M2.5-ын дундаж Token хэрэглээ нь туршигдаж буй бүх загваруудаас 6-д ордог бөгөөд өрсөлдөгч Sonnet-ээс бараг 2 дахин их байна. Аз болоход Хиюүгийн тооцоолох хүчин чадал баталгаатай, өртөг нь өндөр биш. Програмчлалын хувьд Sonnet-ийг бүх талаар орлож чадахгүй ч өдөр тутмын хэрэглээнд бүрэн ашиглах боломжтой. M2.5 нь эцэстээ M2.1-ийн хүрэхийг хүссэн зорилгодоо хүрсэн.
Логик амжилт

*1 Хүснэгт нь харьцуулалтыг тодруулах зорилгоор зөвхөн харьцуулах боломжтой загваруудыг харуулсан бөгөөд бүрэн эрэмбэлсэн жагсаалт биш юм.
*2 Сэдэв болон туршилтын аргачлалыг дараах холбоосоос үзнэ үү: Том хэлний загвар - Логик чадварын хөндлөнгийн үнэлгээ 26-01 сарын чарт. #56 сэдэв нэмэгдсэн.
*3 Бүрэн жагсаалтыг https://llm2014.github.io/llm_benchmark/ хаягаар шинэчилнэ.
*4 Улаан өнгө нь Сар шинийн баярын үеэр хязгаарлагдмал гэсэн утгатай бөгөөд баяр баясгалантай байгааг илэрхийлж байгаа бөгөөд өөр утгагүй.
M2.1 нь алдаатай, логик чадвар нь хэтэрхий доогуур хувилбар тул доор M2 болон M2.5-ын үе хоорондын харьцуулалтыг хийнэ.
Сайжруулалт
- Тогтвортой дүгнэлт гаргах: M2.5 нь илүү урт дүгнэлт гаргах явцад анхны хязгаарлалт болон контекстийн нарийн ширийн зүйлийг хадгалж чаддаг тул тийм ч хэцүү биш, харин "анхаарал төвлөрүүлэх" шаардлагатай зарим асуудлуудад M2.5 оноо нь мэдэгдэхүйц өссөн. Жишээлбэл, #4 Рубик шоог эргүүлэх асуудалд M2.5 нь дэлхийд бүрэн оноо авсан 8 дахь загвар болсон. Гэсэн хэдий ч ийм төрлийн асуудлуудад Хойд Америкийн том гурвал тогтвортойгоор бүрэн оноо авч чаддаг бол M2.5 нь зөвхөн бага магадлалтайгаар нэг удаа зөв хариулж байгаа нь ялгаа нь тодорхой байна.
- Програмчлал: Өмнө дурдсанчлан M2.5 нь Sonnet-ийг бүх талаар орлож чадахгүй, голчлон програмчлалын мэдлэгийн хэмжээ хязгаарлагдмал байгаатай холбоотой. Туршлага, арга барил, хувилбарын API-ийн ялгаа гэх мэт тохиолдолд M2.5 нь сануулгагүйгээр асуудлыг өөрөө олж илрүүлэхэд хэцүү байдаг бөгөөд ихэвчлэн олон шат дамжлага дамжин асуудлыг аажмаар багасгах шаардлагатай болдог. Гэхдээ энэ нь M2-оос хамаагүй дэвшилттэй юм. C төслийн туршилтад ихэнх дотоодын загварууд эхний 2 шатанд гацдаг бол M2.5 нь 8 дахь шатанд хүрсэн анхны дотоодын загвар болсон. Хэдийгээр M2.5 нь OpenGL ашиглах болон орон зайн төсөөллийн хувьд тодорхой сул талуудтай ч оновчтой болгосон Agent чадвартай хослуулан алдаа гаргаж, зөв шийдэлд хүрэх боломжтой. Нэмж дурдахад M2.5 програмчлалын ажил хийж байхдаа "үг" багатай, бараг зөвхөн ажлаа эцэслэн дуусгасны дараа товч дүгнэлт гаргадаг, дундуур нь санаагаа гаргадаггүй гэдгийг анхаарах хэрэгтэй. Бусад төслүүд туршигдаж байгаа бөгөөд дараа нь шинэчлэгдэх болно.
- Тооцоолох чадвар: M2-ын тооцоолох чадвар нь тийм ч сайн биш, M2.1 бүр ч дордсон. M2.5 нь доогуур эхлэл дээр үр дүнтэй сайжруулалт хийсэн. Ихэнх энгийн тооцоололд M2.5 нь бага магадлалтайгаар өндөр нарийвчлалтай байдаг ч ихэнх тохиолдолд буруу тооцоолох, алдаа ихтэй байх, томъёог ойлгохгүй байх асуудал байсаар байгаа бөгөөд энэ талын сургалт хангалтгүй байна. Agent-ээр ажилладаг загварын хувьд тооцоолох чадвар нь зайлшгүй шаардлагатай биш бөгөөд Claude цувралын тооцоолох чадвар ч бас удаан хугацаанд хоцрогдсон.
Сул тал
- Зааврыг дагаж мөрдөх: M2-той харьцуулахад зааврыг дагаж мөрдөх нь тийм ч их сайжраагүй, зарим энгийн асуудлуудад бүрэн оноо авах магадлал өндөр ч тогтвортой байж чадахгүй. Санамсаргүйгээр зааврыг хаях эсвэл зааврыг өөрчлөх тохиолдол байдаг ч сэтгэлгээний хэлхээний агуулгыг ажиглавал загвар нь бүх зааврыг анзаарсан боловч эцсийн гаралт дээр асуудал гарч байна. Ерөнхий үзүүлэлт нь эхний эгнээний бусад загваруудаас хоцрогдсон. Програмчлалд кодлох шаардлага, төслийн стандартыг үл тоомсорлох тохиолдол гардаг. Жишээлбэл, C төсөлд Z тэнхлэг дээш чиглэсэн гэж заасан боловч M2.5 өөр алдааг засахын тулд дур мэдэн Y тэнхлэг болгон өөрчилсөн. Өдөр тутмын хэрэглээнд нэмэлт анхаарал хандуулах шаардлагатай.
- Хийсвэрлэл: M2.5-ын хийсвэрлэлийн түвшин нь M2-оос мэдэгдэхүйц өөрчлөгдөөгүй, ихэнх контексттэй холбоотой асуудлуудад хоёулаа хязгаарын оноо нь ижил байна. Тэр ч байтугай #43 зорилтот тоог тооцоолох асуудал дээр M2.5 хоёр дахь эгнээний загваруудад гардаг тоог давтан ашиглах, тоо алгасах гэх мэт доод түвшний алдаа гаргадаг.
Сайбер түүхч хэлэв
Дотоодын үйлдвэрлэгчид програмчлалын загварыг хэрхэн хийх талаар хагас жил гаруй хугацаанд судалж, хамгийн анхны Sonnet-ийг орлох загварууд нь ихэвчлэн зөвхөн "нэг өгүүлбэр" үүсгэх эффект дээр л төстэй харагддаг. Үүний дотоод код зохион байгуулалт, инженерчлэл, мөн хамгийн чухал нь олон шат дамжлагын итерацийн чадвар нь хамаагүй доогуур байдаг. Энэ нь дотоодын програмчлагчдыг дотоодын загварт итгэхгүй байх, хориглогдох эрсдэлтэй ч Claude-ийг ашиглахыг илүүд үздэг.
MiniMax M2, M2.1 нь анхны сэтгэгдлийг эргүүлж, M2.5 үе нь дотоодын загварын програмчлалын боломжийг нэг алхам урагшлуулсан. Үнэхээр M2.5 нь албан ёсоор зарласан Opus түвшинтэй харьцуулахад бүх талаараа ялгаатай хэвээр байгаа ч хэн нэгэн итгэж, ашиглах хүсэлтэй байвал асуудал сайн тал руугаа хөгжих болно. Үүнийг харахад M2.5 нь Хиюүгийн ялалтын зорилгодоо хүрэх бат бөх алхам мөн.





