షీయు మినీమాక్స్ M2.5 రివ్యూ
షీయు మినీమాక్స్ M2.5 రివ్యూ
క్లుప్తమైన ముగింపు: దిగువకు పాతుకుపోవడం, పైకి ఎదగడం
ప్రాథమిక సమాచారం
షీయు యొక్క మునుపటి తరం M2.1 సాంకేతిక సమస్యల కారణంగా, ప్రోగ్రామింగ్ పరంగా గణనీయమైన పురోగతి సాధించినప్పటికీ, లాజికల్ సామర్థ్యం M2 కంటే వెనుకబడి ఉంది. అదృష్టవశాత్తు, M2.5 ప్రాథమికంగా సాంకేతిక సమస్యలను పరిష్కరించింది మరియు సామర్థ్యం సాధారణ స్థితికి చేరుకుంది. M2తో పోలిస్తే, M2.5 యొక్క పురోగతి దాదాపు 17%.
అయితే, కొంత పురోగతి ఎక్కువ ఆలోచనా విధానం మరియు లోతైన పరిష్కార స్థల అన్వేషణ ద్వారా వచ్చింది. M2.5 యొక్క సగటు టోకెన్ వినియోగం పరీక్షించబడుతున్న మొత్తం మోడళ్లలో 6వ స్థానంలో ఉంది, ఇది ప్రత్యర్థి Sonnet కంటే దాదాపు 2 రెట్లు ఎక్కువ. అదృష్టవశాత్తూ, షీయు యొక్క కంప్యూటింగ్ శక్తికి హామీ ఉంది మరియు ఖర్చు కూడా తక్కువగా ఉంది. ప్రోగ్రామింగ్ Sonnetకు మరణం లేని ప్రత్యామ్నాయంగా ఉండనప్పటికీ, రోజువారీ ఉపయోగం కోసం ఇది పూర్తిగా ఉపయోగపడుతుంది. M2.5 చివరికి M2.1 చేరుకోవాలనుకున్న లక్ష్యాన్ని సాధించింది.
లాజికల్ ఫలితాలు

*1 పట్టిక పోలిక సంబంధాన్ని హైలైట్ చేయడానికి, కొన్ని పోల్చదగిన మోడళ్లను మాత్రమే ప్రదర్శిస్తుంది, ఇది పూర్తి క్రమం కాదు.
*2 ప్రశ్నలు మరియు పరీక్షా పద్ధతుల కోసం, చూడండి: పెద్ద భాషా నమూనా - తార్కిక సామర్థ్యం క్రాస్-మూల్యాంకనం 26-01 నెలవారీ జాబితా. #56 ప్రశ్న జోడించబడింది.
*3 పూర్తి జాబితా https://llm2014.github.io/llm_benchmark/లో నవీకరించబడింది.
*4 ఎరుపు రంగు స్ప్రింగ్ ఫెస్టివల్ కాలానికి పరిమితం చేయబడింది, ఇది వేడుకను సూచిస్తుంది మరియు ఇతర అర్థాలు లేవు.
M2.1 అనేది బగ్ ఉన్న సంస్కరణ మరియు తార్కిక సామర్థ్యం చాలా తక్కువగా ఉన్నందున, కింది భాగం M2 మరియు M2.5 యొక్క క్రాస్-జెనరేషన్ పోలికను మాత్రమే చేస్తుంది.
మెరుగుదలలు
- స్థిరమైన అనుమితి: M2.5 ఎక్కువ అనుమితి ప్రక్రియలో ప్రారంభ పరిమితులు మరియు సందర్భోచిత వివరాలను కొనసాగించగలదు, కాబట్టి అంత కష్టం కాని కొన్ని సమస్యలు, కానీ "శ్రద్ధ" అవసరమయ్యే సమస్యలలో, M2.5 స్కోరు గణనీయంగా మెరుగుపడింది. ఉదాహరణకు, #4 రూబిక్స్ క్యూబ్ భ్రమణం, M2.5 పూర్తి మార్కులు సాధించిన ప్రపంచంలోని 8వ మోడల్. అయితే, ఈ రకమైన సమస్యలను ఉత్తర అమెరికాలోని పెద్ద మూడు స్థిరంగా పూర్తి మార్కులు సాధించగలవు, అయితే M2.5 ఒకసారి మాత్రమే తక్కువ సంభావ్యతతో సరిగ్గా చేయగలదు, వ్యత్యాసం స్పష్టంగా ఉంది.
- ప్రోగ్రామింగ్: ముందే చెప్పినట్లుగా, M2.5 అన్ని విధాలుగా Sonnetను భర్తీ చేయలేదు, ప్రధానంగా ప్రోగ్రామింగ్ యొక్క జ్ఞాన పరిమాణం కారణంగా, అనుభవం, నైపుణ్యాలు, సంస్కరణ API వ్యత్యాసాలు అవసరమయ్యే సందర్భాలలో, M2.5 సూచనలు లేకుండా సమస్యలను కనుగొనడం కష్టం, సాధారణంగా సమస్యను క్రమంగా తగ్గించడానికి బహుళ రౌండ్లు పడుతుంది. కానీ ఇది M2 కంటే చాలా పెద్ద పురోగతి. C ఇంజనీరింగ్ పరీక్షలో, చాలా దేశీయ నమూనాలు మొదటి 2 రౌండ్లలో చిక్కుకుపోతాయి, అయితే M2.5 8వ రౌండ్కు చేరుకున్న మొదటి దేశీయ నమూనాగా నిలిచింది. M2.5కి OpenGL వినియోగం మరియు ప్రాదేశిక ఊహలో స్పష్టమైన బలహీనతలు ఉన్నప్పటికీ, ఆప్టిమైజ్ చేసిన Agent సామర్థ్యంతో, ఇది నిరంతరం ప్రయత్నించవచ్చు మరియు తప్పులను సరిదిద్దుకుంటూ సరైన పరిష్కారానికి చేరుకోవచ్చు. అదనంగా, M2.5 ప్రోగ్రామింగ్ చేస్తున్నప్పుడు, తక్కువ "మాట్లాడుతుంది", తుది పని పూర్తయిన తర్వాత మాత్రమే సంక్షిప్త సారాంశాన్ని అందిస్తుంది మరియు మధ్యలో ఆలోచనలను అందించదు. ఇతర ఇంజనీరింగ్ పనులు ఇంకా పరీక్షించబడుతున్నాయి మరియు తరువాత నవీకరించబడతాయి.
- గణన సామర్థ్యం: M2 యొక్క గణన సామర్థ్యం అద్భుతంగా లేదు మరియు M2.1 మరింత దిగజారింది. M2.5 తక్కువ ప్రారంభ స్థానం నుండి సమర్థవంతమైన మెరుగుదలలు చేసింది. చాలా సాధారణ గణనలలో, M2.5 తక్కువ సంభావ్యతతో అధిక ఖచ్చితత్వాన్ని కలిగి ఉంది, చాలా సందర్భాలలో తప్పుగా లెక్కిస్తుంది, పెద్ద లోపాలు మరియు సూత్రాన్ని అర్థం చేసుకోలేకపోవడం వంటి సమస్యలు ఉన్నాయి. ఈ విషయంలో శిక్షణ ఇంకా సరిపోదు. Agent నడిచే మోడల్గా, గణన సామర్థ్యం తప్పనిసరి కాదు, Claude సిరీస్ యొక్క గణన కూడా చాలా కాలంగా వెనుకబడి ఉంది.
లోపాలు
- సూచనలను పాటించడం: M2తో పోలిస్తే, సూచనలను పాటించడంలో పెద్దగా మెరుగుదల లేదు. కొన్ని సాధారణ సమస్యలకు పూర్తి మార్కులు వచ్చే అవకాశం ఎక్కువ, కానీ స్థిరంగా ఉండదు. సూచనలను యాదృచ్ఛికంగా విస్మరించడం లేదా సూచనలను మార్చడం వంటి పరిస్థితులు ఉన్నాయి, కానీ ఆలోచనా విధానం యొక్క కంటెంట్ను పరిశీలిస్తే, మోడల్ అన్ని సూచనలను గమనించింది, కానీ చివరి అవుట్పుట్లో సమస్యలు ఉన్నాయి. మొత్తం పనితీరు మొదటి శ్రేణిలోని ఇతర మోడళ్ల కంటే వెనుకబడి ఉంది. ప్రోగ్రామింగ్లో కూడా కోడింగ్ అవసరాలు మరియు ప్రాజెక్ట్ ప్రమాణాలను విస్మరించే పరిస్థితులు ఉన్నాయి. ఉదాహరణకు, C ఇంజనీరింగ్లో Z-యాక్సిస్ను పైకి ఉండేలా పేర్కొన్నారు, కానీ M2.5 మరొక బగ్ను పరిష్కరించడానికి Y-యాక్సిస్ను పైకి ఉండేలా మార్చింది. రోజువారీ ఉపయోగంలో అదనపు నియంత్రణ అవసరం.
- భ్రమలు: M2.5 యొక్క భ్రమ స్థాయి M2 కంటే గణనీయంగా మారలేదు. చాలా సందర్భోచిత సంబంధిత సమస్యలలో, రెండింటి యొక్క గరిష్ట స్కోర్లు ఒకే విధంగా ఉన్నాయి. #43 లక్ష్య సంఖ్య గణన సమస్యలో కూడా, M2.5 రెండవ శ్రేణి మోడళ్లు చేసే విధంగానే సంఖ్యలను పదే పదే ఉపయోగించడం మరియు సంఖ్యలను వదిలివేయడం వంటి సాధారణ సమస్యలను చేస్తుంది.
సైబర్ హిస్టోరియన్ ఇలా అంటాడు
దేశీయ తయారీదారులు ప్రోగ్రామింగ్ మోడల్ను ఎలా తయారు చేయాలో తెలుసుకోవడానికి చాలా నెలలు గడిపారు. Sonnetకు సమానమని చెప్పుకునే ప్రారంభ బ్యాచ్ మోడళ్లు చాలా వరకు "ఒకే వాక్యం" ఉత్పత్తి ప్రభావంలో మాత్రమే దగ్గరగా కనిపించాయి. వాటి అంతర్గత కోడ్ సంస్థ, ఇంజనీరింగ్ మరియు ముఖ్యంగా బహుళ పునరావృత సామర్థ్యం చాలా వెనుకబడి ఉన్నాయి. దీని కారణంగా దేశీయ ప్రోగ్రామర్లు సాధారణంగా దేశీయ మోడళ్లను విశ్వసించరు మరియు ఖాతా బ్లాక్ చేయబడే ప్రమాదం ఉన్నప్పటికీ Claudeని ఉపయోగించడానికి ఇష్టపడతారు.
అయితే MiniMax M2, M2.1 ప్రాథమికంగా సమీక్షలను మార్చడంతో, M2.5 తరం దేశీయ మోడళ్ల ప్రోగ్రామింగ్ లభ్యతను ఒక పెద్ద అడుగు ముందుకు వేసింది. నిజమే, M2.5 అధికారికంగా ప్రకటించిన Opus స్థాయికి అన్ని విధాలుగా చాలా దూరంలో ఉంది, కానీ ఎవరైనా విశ్వసించడానికి మరియు ఉపయోగించడానికి సిద్ధంగా ఉంటే, విషయాలు మంచి దిశలో అభివృద్ధి చెందుతాయి. దీని ప్రకారం, M2.5 విజయం దిశగా షీయు వేసిన బలమైన అడుగు అని చెప్పవచ్చు.





