शियू मिनीमॅक्स एम 2.5 चाचणी
शियू मिनीमॅक्स एम 2.5 चाचणी
संक्षिप्त निष्कर्ष: खाली रुजा, वर वाढा
मूलभूत माहिती
शियूची मागील पिढी एम 2.1 मध्ये तांत्रिक समस्यांमुळे, प्रोग्रामिंगमध्ये लक्षणीय प्रगती झाली असली तरी, तार्किक क्षमता एम 2 पेक्षा मागे राहिली. सुदैवाने, एम 2.5 ने बहुतेक तांत्रिक समस्यांचे निराकरण केले आहे आणि क्षमता सामान्य मार्गावर परत आली आहे. एम 2 च्या तुलनेत, एम 2.5 मध्ये सुमारे 17% सुधारणा झाली आहे.
परंतु काही सुधारणा अधिक लांब विचार साखळी (thinking chain) आणि अधिक सखोल सोल्युशन स्पेस एक्सप्लोरेशनमुळे (solution space exploration) झाली आहे. एम 2.5 चा सरासरी टोकन वापर (Token Consumption) चाचणी केलेल्या सर्व मॉडेल्समध्ये 6 व्या क्रमांकावर आहे, जो प्रतिस्पर्धी सॉनेटच्या (Sonnet) जवळपास दुप्पट आहे. सुदैवाने, शियूकडे (Xiyu) पुरेसा संगणकीय वेग (computational power) आहे आणि खर्चही जास्त नाही. प्रोग्रामिंगमध्ये सॉनेटला पूर्णपणे पर्याय देणे शक्य नसले तरी, रोजच्या वापरासाठी ते पूर्णपणे उपयुक्त आहे. एम 2.5 ने अखेरीस एम 2.1 चे ध्येय साध्य केले आहे.
तार्किक क्षमता निकाल

*1 तक्त्यात तुलनात्मक संबंध दर्शवण्यासाठी, फक्त काही तुलनात्मक मॉडेल्स दर्शविले आहेत, ही पूर्ण क्रमवारी नाही.
*2 प्रश्न आणि चाचणी पद्धतीसाठी, हे पहा: मोठ्या भाषिक मॉडेलची - तार्किक क्षमता चाचणी 26-01 महिन्याची क्रमवारी. #56 वा प्रश्न नवीन जोडला आहे.
*3 संपूर्ण क्रमवारी येथे अपडेट केली जाते: https://llm2014.github.io/llm_benchmark/
*4 लाल रंग हा चीनी नववर्ष (Chinese New Year) दरम्यानचा मर्यादित रंग आहे, जो आनंद दर्शवतो, त्याचा दुसरा कोणताही अर्थ नाही.
एम 2.1 हे बग असलेले (Bug), आणि असामान्यपणे कमी तार्किक क्षमता असलेले मॉडेल असल्याने, खालील मजकूर फक्त एम 2 आणि एम 2.5 च्या पिढी बदलांची तुलना करतो.
सुधारणा
- स्थिर अनुमान (Stable Inference): एम 2.5 दीर्घ अनुमान प्रक्रियेदरम्यान (inference process) सुरुवातीचे निर्बंध आणि संदर्भातील तपशील टिकवून ठेवू शकते, त्यामुळे ज्या समस्या जास्त कठीण नाहीत, परंतु 'लक्ष केंद्रित' असणे आवश्यक आहे, अशा समस्यांमध्ये एम 2.5 चा स्कोअर लक्षणीयरीत्या वाढला आहे. उदाहरणार्थ, #4 रुबिक क्यूब फिरवणे (Rubik's Cube rotation), एम 2.5 हे जागतिक स्तरावर पूर्ण गुण मिळवणारे 8 वे मॉडेल आहे. परंतु या प्रकारच्या समस्यांमध्ये, उत्तर अमेरिकेतील (North America) शीर्ष 3 मॉडेल्सपैकी बहुतेक स्थिरपणे पूर्ण गुण मिळवू शकतात, तर एम 2.5 फक्त क्वचितच एकदाच बरोबर उत्तर देऊ शकते, त्यामुळे फरक स्पष्ट आहे.
- प्रोग्रामिंग: आधी सांगितल्याप्रमाणे, एम 2.5 सॉनेटला (Sonnet) सर्व बाबतीत बदलू शकत नाही, याचे मुख्य कारण प्रोग्रामिंगच्या ज्ञानाची मर्यादा आहे. ज्या ठिकाणी अनुभव, कौशल्ये, आवृत्ती एपीआयमधील (API) फरक इत्यादींची आवश्यकता असते, तिथे एम 2.5 ला सूचना न देता समस्या स्वतःहून शोधणे कठीण जाते. सहसा अनेक फेऱ्यांमध्ये हळूहळू समस्या कमी करावी लागते. पण ही एम 2 पेक्षा खूप मोठी सुधारणा आहे. सी (C) इंजिनिअरिंग चाचणीमध्ये, बहुतेक चीनी मॉडेल्स पहिल्या 2 फेऱ्यांमध्येच अडकतात, तर एम 2.5 हे 8 व्या फेरीपर्यंत पोहोचणारे पहिले चीनी मॉडेल ठरले आहे. एम 2.5 मध्ये ओपनजीएलचा (OpenGL) वापर आणि स्पेस इमॅजिनेशनमध्ये (space imagination) काही कमतरता असल्या तरी, ऑप्टिमाइझ केलेल्या (optimized) एजेंट क्षमतेसह (Agent capability), ते सतत प्रयत्न करून आणि त्रुटी शोधून अचूक उत्तरापर्यंत पोहोचू शकते. आणखी एक महत्त्वाची गोष्ट म्हणजे, एम 2.5 प्रोग्रामिंग करताना कमी 'बोलते', ते फक्त काम पूर्ण झाल्यावरच थोडक्यात निष्कर्ष देते, मध्यात विचार सांगत नाही. इतर इंजिनिअरिंगची (engineering) चाचणी अजून चालू आहे, ती लवकरच अपडेट केली जाईल.
- गणन क्षमता (Calculation ability): एम 2 ची गणन क्षमता फार चांगली नव्हती, तर एम 2.1 मध्ये आणखी घट झाली. एम 2.5 ने कमी पातळीवर प्रभावी सुधारणा केली आहे. बहुतेक साध्या गणितांमध्ये, एम 2.5 उच्च अचूकता दर्शवते, परंतु बहुतेक वेळा गणिते चुकतात, मोठ्या चुका होतात आणि सूत्र समजत नाही. या दृष्टीने अजूनही प्रशिक्षणाची कमतरता आहे. एजेंट (Agent) द्वारे चालवलेले मॉडेल असल्याने, गणन क्षमता ही अत्यावश्यक गरज नाही, क्लाउड मालिकेची (Claude series) गणन क्षमता देखील बऱ्याच काळापासून मागे आहे.
कमतरता
- आदेशांचे पालन (Instruction following): एम 2 च्या तुलनेत, आदेशांचे पालन करण्याच्या प्रमाणात फारशी वाढ झालेली नाही. काही साध्या प्रश्नांची उत्तरे बरोबर येण्याची शक्यता जास्त आहे, पण ते स्थिर नाही. यादृच्छिकपणे आदेश टाकून देण्याची किंवा आदेश बदलण्याची शक्यता असते, परंतु विचार साखळीतील (thinking chain) मजकूर पाहता, मॉडेलने सर्व आदेशांकडे लक्ष दिलेले असते, तरीही अंतिम आउटपुटमध्ये समस्या येते. एकूणच, पहिल्या श्रेणीतील इतर मॉडेल्सच्या तुलनेत हे मॉडेल मागे आहे. प्रोग्रामिंगमध्ये देखील कोडिंग आवश्यकता आणि प्रकल्प नियमांकडे दुर्लक्ष केले जाते, उदाहरणार्थ, सी (C) इंजिनिअरिंगमध्ये झेड (Z) अक्षांश (axis) वरच्या दिशेने असावा, असा नियम आहे, परंतु एम 2.5 ने दुसरी बग (Bug) दुरुस्त करण्यासाठी, स्वतःहून वाय (Y) अक्षांश वरच्या दिशेने केला. रोजच्या वापरात याकडे लक्ष देणे आवश्यक आहे.
- भ्रम (Hallucination): एम 2.5 च्या भ्रम पातळीत एम 2 च्या तुलनेत लक्षणीय बदल झालेला नाही. बहुतेक संदर्भ-संबंधित समस्यांमध्ये, दोघांचेही कमाल गुण सारखेच आहेत. #43 लक्ष्य संख्या मोजण्याच्या समस्येमध्ये, एम 2.5 दुसरी श्रेणीतील मॉडेल्स करतात, तशाच चुका करते, जसे की संख्यांचा वारंवार वापर करणे किंवा संख्या वगळणे.
सायबर इतिहासकारांचे म्हणणे आहे
देशातील उत्पादकांनी प्रोग्रामिंग मॉडेल कसे तयार करावे, यासाठी जवळपास अर्धा वर्ष प्रयत्न केले. सुरुवातीच्या काळात सॉनेटला (Sonnet) पर्याय असल्याचा दावा करणारे बहुतेक मॉडेल्स फक्त 'एका वाक्यात' परिणाम दर्शवण्यात जवळचे दिसत होते. परंतु त्यांची अंतर्गत कोड रचना, इंजिनिअरिंग आणि सर्वात महत्त्वाचे म्हणजे अनेक वेळा पुनरावृत्ती करण्याची क्षमता खूपच कमी होती. त्यामुळे देशातील प्रोग्रामरचा (programmer) देशांतर्गत मॉडेल्सवर (models) विश्वास नव्हता आणि ते खाते ब्लॉक (block) होण्याचा धोका पत्करून क्लाउड (Claude) वापरण्यास तयार होते.
परंतु मिनीमॅक्स एम 2 (MiniMax M2) आणि एम 2.1 (M2.1) ने सुरुवातीला लोकांची नकारात्मक मत बदलली आणि एम 2.5 ने देशांतर्गत मॉडेल्सच्या (models) प्रोग्रामिंगच्या उपयुक्ततेत मोठी वाढ केली. खरंच, एम 2.5 मध्ये अधिकृतपणे घोषित केलेल्या ओपस स्तराच्या (Opus level) तुलनेत सर्व बाबतीत अजूनही कमतरता आहेत, परंतु जर कोणी विश्वास ठेवण्यास आणि वापरण्यास तयार असेल, तर गोष्टी चांगल्या दिशेने वाटचाल करतील. यावरून असे दिसते की, एम 2.5 हे शियूने (Xiyu) विजयाच्या ध्येयाकडे टाकलेले एक ठोस पाऊल आहे.





