مراجعة 稀宇 MiniMax M2.5
مراجعة 稀宇 MiniMax M2.5
خلاصة قصيرة: ترسيخ الجذور نحو الأسفل، والنمو نحو الأعلى
معلومات أساسية
واجه الجيل السابق من 稀宇، M2.1، مشاكل تقنية، وعلى الرغم من التقدم الكبير في البرمجة، إلا أن القدرة المنطقية تراجعت مقارنة بـ M2. لحسن الحظ، حلت M2.5 المشاكل التقنية بشكل أساسي، وعادت القدرة إلى مسارها الطبيعي. بالمقارنة مع M2، فإن تقدم M2.5 يبلغ حوالي 17٪.
ومع ذلك، تم تحقيق جزء من هذا التقدم من خلال سلاسل تفكير أطول واستكشاف أعمق لمساحات الحلول. يستهلك M2.5 متوسط عدد كبير من الرموز (Token)، ويحتل المرتبة السادسة بين جميع النماذج التي تم اختبارها، وهو ما يقرب من ضعف منافسه Sonnet. لحسن الحظ، فإن قوة الحوسبة لـ 稀宇 مضمونة، والتكلفة ليست عالية. على الرغم من أن البرمجة لا يمكن أن تحل محل Sonnet بشكل كامل، إلا أنها قابلة للاستخدام تمامًا في الاستخدام اليومي. حقق M2.5 في النهاية الهدف الذي أراد M2.1 تحقيقه.
نتائج المنطق

*1 الجدول يعرض فقط جزءًا من النماذج القابلة للمقارنة لإبراز علاقات المقارنة، وليس ترتيبًا كاملاً.
*2 للاطلاع على الأسئلة وطرق الاختبار، يرجى الرجوع إلى: تقييم القدرة المنطقية للنماذج اللغوية الكبيرة - قائمة يناير 26. تمت إضافة السؤال رقم 56.
*3 يتم تحديث القائمة الكاملة على https://llm2014.github.io/llm_benchmark/
*4 اللون الأحمر مخصص لفترة عيد الربيع، ويعبر عن الاحتفال، ولا يحمل أي معنى آخر.
نظرًا لأن M2.1 هو إصدار به أخطاء وقدرة منطقية منخفضة بشكل غير طبيعي، فإن النص التالي سيقارن فقط بين M2 و M2.5 عبر الأجيال.
التحسينات
- الاستدلال المستقر: يمكن لـ M2.5 الحفاظ على القيود الأولية وتفاصيل السياق في عملية استدلال أطول، لذلك تحسنت نتائج M2.5 بشكل ملحوظ في بعض المشكلات التي ليست صعبة للغاية ولكنها تتطلب "تركيزًا". على سبيل المثال، في السؤال رقم 4، دوران المكعب السحري، M2.5 هو النموذج الثامن على مستوى العالم الذي يحصل على العلامة الكاملة. ومع ذلك، يمكن لـ "الثلاثة الكبار" في أمريكا الشمالية الحصول على العلامة الكاملة بشكل ثابت في هذه الأنواع من المشكلات، بينما يمكن لـ M2.5 الحصول عليها مرة واحدة فقط باحتمالية صغيرة، والفجوة واضحة.
- البرمجة: كما ذكرنا سابقًا، لا يمكن لـ M2.5 أن يحل محل Sonnet بشكل كامل، ويرجع ذلك أساسًا إلى محدودية كمية المعرفة في البرمجة. في الحالات التي تتطلب الخبرة والمهارات والاختلافات في واجهة برمجة التطبيقات (API)، يصعب على M2.5 اكتشاف المشكلات بنفسه دون مطالبات، وعادة ما يتطلب الأمر جولات متعددة لتقليل المشكلة تدريجيًا. لكن هذا يمثل تحسنًا كبيرًا مقارنة بـ M2. في اختبار C Engineering، ستتعثر معظم النماذج المحلية في الجولتين الأوليين، بينما أصبح M2.5 أول نموذج محلي يخترق الجولة الثامنة. على الرغم من أن M2.5 لديه أوجه قصور واضحة في استخدام OpenGL والخيال المكاني، إلا أنه بالاقتران مع قدرة الوكيل (Agent) المحسنة، يمكنه باستمرار التجربة والخطأ والتقارب إلى الحل الصحيح. بالإضافة إلى ذلك، تجدر الإشارة إلى أن M2.5 يتحدث "أقل" عند العمل في البرمجة، ويكاد يقتصر على إخراج ملخص موجز بعد الانتهاء من العمل في النهاية، ولا يخرج الأفكار في منتصف الطريق. لا تزال المشاريع الأخرى قيد الاختبار وسيتم تحديثها لاحقًا.
- القدرة الحسابية: لم تكن القدرة الحسابية لـ M2 ممتازة، بل وتراجعت M2.1، وقدم M2.5 تحسينات فعالة على نقطة انطلاق منخفضة. في معظم العمليات الحسابية البسيطة، يتمتع M2.5 باحتمالية صغيرة للدقة العالية، وفي معظم الحالات لا يزال هناك أخطاء في الحساب، وأخطاء كبيرة، ومشاكل في عدم فهم الصيغ، ولا يزال التدريب في هذا الصدد غير كاف. باعتباره نموذجًا مدفوعًا بالوكيل (Agent)، فإن القدرة الحسابية ليست ضرورة أساسية، كما أن حسابات سلسلة Claude متخلفة منذ فترة طويلة.
أوجه القصور
- اتباع التعليمات: بالمقارنة مع M2، فإن الزيادة في اتباع التعليمات ليست كبيرة، واحتمالية الحصول على العلامة الكاملة في بعض المشكلات البسيطة أعلى، ولكنها أيضًا غير مستقرة. هناك حالات يتم فيها تجاهل التعليمات أو تغييرها بشكل عشوائي، ولكن عند مراقبة محتوى سلسلة التفكير، يلاحظ النموذج جميع التعليمات، وتحدث المشكلة في الإخراج النهائي. الأداء العام متخلف عن النماذج الأخرى في المستوى الأول. في البرمجة، هناك أيضًا حالات يتم فيها تجاهل متطلبات الترميز ومواصفات المشروع. على سبيل المثال، في C Engineering، تنص المواصفات على أن المحور Z متجه لأعلى، لكن M2.5 قام بتغييره بشكل تعسفي إلى المحور Y من أجل إصلاح خطأ آخر. يجب توخي الحذر الشديد في الاستخدام اليومي.
- الهلوسة: لم يكن مستوى الهلوسة في M2.5 مختلفًا بشكل كبير عن M2، والحد الأقصى للنتائج لكلا النموذجين متطابق في معظم المشكلات المتعلقة بالسياق. حتى في السؤال رقم 43، مشكلة حساب العدد المستهدف، سيرتكب M2.5 أيضًا بعض المشكلات المبتدئة مثل استخدام الأرقام بشكل متكرر أو فقدان الأرقام التي ستظهر في نماذج المستوى الثاني.
قال المؤرخ السيبراني
قضت الشركات المحلية أكثر من نصف عام في استكشاف كيفية عمل نموذج البرمجة. تبدو الدفعة الأولى من النماذج التي تدعي أنها بدائل لـ Sonnet قريبة فقط من حيث تأثير إنشاء "جملة واحدة". إن تنظيم التعليمات البرمجية المتأصلة والهندسة والقدرة الأهم على التكرار متعدد الجولات أبعد ما يكون عن ذلك. وقد أدى ذلك أيضًا إلى أن المبرمجين المحليين لا يثقون عمومًا في النماذج المحلية ويفضلون استخدام Claude على الرغم من خطر حظر الحساب.
ومع قيام MiniMax M2 و M2.1 بتغيير الرأي العام مبدئيًا، فإن جيل M2.5 يدفع إمكانية استخدام البرمجة النموذجية المحلية خطوة كبيرة إلى الأمام. في الواقع، لا تزال هناك فجوة شاملة بين M2.5 ومستوى Opus الذي أعلنته الشركة رسميًا، ولكن طالما أن هناك أشخاصًا على استعداد للثقة والاستخدام، فإن الأمور ستتجه نحو الأفضل. من هذا المنطلق، فإن M2.5 هي حقًا خطوة ثابتة اتخذتها 稀宇 نحو هدف النصر.





