షీయు మినీమాక్స్ M2.5 రివ్యూ

క్లుప్తమైన ముగింపు: దిగువకు పాతుకుపోవడం, పైకి ఎదగడం

ప్రాథమిక సమాచారం

షీయు యొక్క మునుపటి తరం M2.1 సాంకేతిక సమస్యల కారణంగా, ప్రోగ్రామింగ్ పరంగా గణనీయమైన పురోగతి సాధించినప్పటికీ, లాజికల్ సామర్థ్యం M2 కంటే వెనుకబడి ఉంది. అదృష్టవశాత్తు, M2.5 ప్రాథమికంగా సాంకేతిక సమస్యలను పరిష్కరించింది మరియు సామర్థ్యం సాధారణ స్థితికి చేరుకుంది. M2తో పోలిస్తే, M2.5 యొక్క పురోగతి దాదాపు 17%.

అయితే, కొంత పురోగతి ఎక్కువ ఆలోచనా విధానం మరియు లోతైన పరిష్కార స్థల అన్వేషణ ద్వారా వచ్చింది. M2.5 యొక్క సగటు టోకెన్ వినియోగం పరీక్షించబడుతున్న మొత్తం మోడళ్లలో 6వ స్థానంలో ఉంది, ఇది ప్రత్యర్థి Sonnet కంటే దాదాపు 2 రెట్లు ఎక్కువ. అదృష్టవశాత్తూ, షీయు యొక్క కంప్యూటింగ్ శక్తికి హామీ ఉంది మరియు ఖర్చు కూడా తక్కువగా ఉంది. ప్రోగ్రామింగ్ Sonnetకు మరణం లేని ప్రత్యామ్నాయంగా ఉండనప్పటికీ, రోజువారీ ఉపయోగం కోసం ఇది పూర్తిగా ఉపయోగపడుతుంది. M2.5 చివరికి M2.1 చేరుకోవాలనుకున్న లక్ష్యాన్ని సాధించింది.

లాజికల్ ఫలితాలు

లాజికల్ ఫలితాల పట్టిక

*1 పట్టిక పోలిక సంబంధాన్ని హైలైట్ చేయడానికి, కొన్ని పోల్చదగిన మోడళ్లను మాత్రమే ప్రదర్శిస్తుంది, ఇది పూర్తి క్రమం కాదు.

*2 ప్రశ్నలు మరియు పరీక్షా పద్ధతుల కోసం, చూడండి: పెద్ద భాషా నమూనా - తార్కిక సామర్థ్యం క్రాస్-మూల్యాంకనం 26-01 నెలవారీ జాబితా. #56 ప్రశ్న జోడించబడింది.

*3 పూర్తి జాబితా https://llm2014.github.io/llm_benchmark/లో నవీకరించబడింది.

*4 ఎరుపు రంగు స్ప్రింగ్ ఫెస్టివల్ కాలానికి పరిమితం చేయబడింది, ఇది వేడుకను సూచిస్తుంది మరియు ఇతర అర్థాలు లేవు.

M2.1 అనేది బగ్ ఉన్న సంస్కరణ మరియు తార్కిక సామర్థ్యం చాలా తక్కువగా ఉన్నందున, కింది భాగం M2 మరియు M2.5 యొక్క క్రాస్-జెనరేషన్ పోలికను మాత్రమే చేస్తుంది.

మెరుగుదలలు

స్థిరమైన అనుమితి: M2.5 ఎక్కువ అనుమితి ప్రక్రియలో ప్రారంభ పరిమితులు మరియు సందర్భోచిత వివరాలను కొనసాగించగలదు, కాబట్టి అంత కష్టం కాని కొన్ని సమస్యలు, కానీ "శ్రద్ధ" అవసరమయ్యే సమస్యలలో, M2.5 స్కోరు గణనీయంగా మెరుగుపడింది. ఉదాహరణకు, #4 రూబిక్స్ క్యూబ్ భ్రమణం, M2.5 పూర్తి మార్కులు సాధించిన ప్రపంచంలోని 8వ మోడల్. అయితే, ఈ రకమైన సమస్యలను ఉత్తర అమెరికాలోని పెద్ద మూడు స్థిరంగా పూర్తి మార్కులు సాధించగలవు, అయితే M2.5 ఒకసారి మాత్రమే తక్కువ సంభావ్యతతో సరిగ్గా చేయగలదు, వ్యత్యాసం స్పష్టంగా ఉంది.
ప్రోగ్రామింగ్: ముందే చెప్పినట్లుగా, M2.5 అన్ని విధాలుగా Sonnetను భర్తీ చేయలేదు, ప్రధానంగా ప్రోగ్రామింగ్ యొక్క జ్ఞాన పరిమాణం కారణంగా, అనుభవం, నైపుణ్యాలు, సంస్కరణ API వ్యత్యాసాలు అవసరమయ్యే సందర్భాలలో, M2.5 సూచనలు లేకుండా సమస్యలను కనుగొనడం కష్టం, సాధారణంగా సమస్యను క్రమంగా తగ్గించడానికి బహుళ రౌండ్లు పడుతుంది. కానీ ఇది M2 కంటే చాలా పెద్ద పురోగతి. C ఇంజనీరింగ్ పరీక్షలో, చాలా దేశీయ నమూనాలు మొదటి 2 రౌండ్లలో చిక్కుకుపోతాయి, అయితే M2.5 8వ రౌండ్‌కు చేరుకున్న మొదటి దేశీయ నమూనాగా నిలిచింది. M2.5కి OpenGL వినియోగం మరియు ప్రాదేశిక ఊహలో స్పష్టమైన బలహీనతలు ఉన్నప్పటికీ, ఆప్టిమైజ్ చేసిన Agent సామర్థ్యంతో, ఇది నిరంతరం ప్రయత్నించవచ్చు మరియు తప్పులను సరిదిద్దుకుంటూ సరైన పరిష్కారానికి చేరుకోవచ్చు. అదనంగా, M2.5 ప్రోగ్రామింగ్ చేస్తున్నప్పుడు, తక్కువ "మాట్లాడుతుంది", తుది పని పూర్తయిన తర్వాత మాత్రమే సంక్షిప్త సారాంశాన్ని అందిస్తుంది మరియు మధ్యలో ఆలోచనలను అందించదు. ఇతర ఇంజనీరింగ్ పనులు ఇంకా పరీక్షించబడుతున్నాయి మరియు తరువాత నవీకరించబడతాయి.
గణన సామర్థ్యం: M2 యొక్క గణన సామర్థ్యం అద్భుతంగా లేదు మరియు M2.1 మరింత దిగజారింది. M2.5 తక్కువ ప్రారంభ స్థానం నుండి సమర్థవంతమైన మెరుగుదలలు చేసింది. చాలా సాధారణ గణనలలో, M2.5 తక్కువ సంభావ్యతతో అధిక ఖచ్చితత్వాన్ని కలిగి ఉంది, చాలా సందర్భాలలో తప్పుగా లెక్కిస్తుంది, పెద్ద లోపాలు మరియు సూత్రాన్ని అర్థం చేసుకోలేకపోవడం వంటి సమస్యలు ఉన్నాయి. ఈ విషయంలో శిక్షణ ఇంకా సరిపోదు. Agent నడిచే మోడల్‌గా, గణన సామర్థ్యం తప్పనిసరి కాదు, Claude సిరీస్ యొక్క గణన కూడా చాలా కాలంగా వెనుకబడి ఉంది.

లోపాలు

సూచనలను పాటించడం: M2తో పోలిస్తే, సూచనలను పాటించడంలో పెద్దగా మెరుగుదల లేదు. కొన్ని సాధారణ సమస్యలకు పూర్తి మార్కులు వచ్చే అవకాశం ఎక్కువ, కానీ స్థిరంగా ఉండదు. సూచనలను యాదృచ్ఛికంగా విస్మరించడం లేదా సూచనలను మార్చడం వంటి పరిస్థితులు ఉన్నాయి, కానీ ఆలోచనా విధానం యొక్క కంటెంట్‌ను పరిశీలిస్తే, మోడల్ అన్ని సూచనలను గమనించింది, కానీ చివరి అవుట్‌పుట్‌లో సమస్యలు ఉన్నాయి. మొత్తం పనితీరు మొదటి శ్రేణిలోని ఇతర మోడళ్ల కంటే వెనుకబడి ఉంది. ప్రోగ్రామింగ్‌లో కూడా కోడింగ్ అవసరాలు మరియు ప్రాజెక్ట్ ప్రమాణాలను విస్మరించే పరిస్థితులు ఉన్నాయి. ఉదాహరణకు, C ఇంజనీరింగ్‌లో Z-యాక్సిస్‌ను పైకి ఉండేలా పేర్కొన్నారు, కానీ M2.5 మరొక బగ్‌ను పరిష్కరించడానికి Y-యాక్సిస్‌ను పైకి ఉండేలా మార్చింది. రోజువారీ ఉపయోగంలో అదనపు నియంత్రణ అవసరం.
భ్రమలు: M2.5 యొక్క భ్రమ స్థాయి M2 కంటే గణనీయంగా మారలేదు. చాలా సందర్భోచిత సంబంధిత సమస్యలలో, రెండింటి యొక్క గరిష్ట స్కోర్లు ఒకే విధంగా ఉన్నాయి. #43 లక్ష్య సంఖ్య గణన సమస్యలో కూడా, M2.5 రెండవ శ్రేణి మోడళ్లు చేసే విధంగానే సంఖ్యలను పదే పదే ఉపయోగించడం మరియు సంఖ్యలను వదిలివేయడం వంటి సాధారణ సమస్యలను చేస్తుంది.

సైబర్ హిస్టోరియన్ ఇలా అంటాడు

దేశీయ తయారీదారులు ప్రోగ్రామింగ్ మోడల్‌ను ఎలా తయారు చేయాలో తెలుసుకోవడానికి చాలా నెలలు గడిపారు. Sonnetకు సమానమని చెప్పుకునే ప్రారంభ బ్యాచ్ మోడళ్లు చాలా వరకు "ఒకే వాక్యం" ఉత్పత్తి ప్రభావంలో మాత్రమే దగ్గరగా కనిపించాయి. వాటి అంతర్గత కోడ్ సంస్థ, ఇంజనీరింగ్ మరియు ముఖ్యంగా బహుళ పునరావృత సామర్థ్యం చాలా వెనుకబడి ఉన్నాయి. దీని కారణంగా దేశీయ ప్రోగ్రామర్లు సాధారణంగా దేశీయ మోడళ్లను విశ్వసించరు మరియు ఖాతా బ్లాక్ చేయబడే ప్రమాదం ఉన్నప్పటికీ Claudeని ఉపయోగించడానికి ఇష్టపడతారు.

అయితే MiniMax M2, M2.1 ప్రాథమికంగా సమీక్షలను మార్చడంతో, M2.5 తరం దేశీయ మోడళ్ల ప్రోగ్రామింగ్ లభ్యతను ఒక పెద్ద అడుగు ముందుకు వేసింది. నిజమే, M2.5 అధికారికంగా ప్రకటించిన Opus స్థాయికి అన్ని విధాలుగా చాలా దూరంలో ఉంది, కానీ ఎవరైనా విశ్వసించడానికి మరియు ఉపయోగించడానికి సిద్ధంగా ఉంటే, విషయాలు మంచి దిశలో అభివృద్ధి చెందుతాయి. దీని ప్రకారం, M2.5 విజయం దిశగా షీయు వేసిన బలమైన అడుగు అని చెప్పవచ్చు.

షీయు మినీమాక్స్ M2.5 రివ్యూ

షీయు మినీమాక్స్ M2.5 రివ్యూ

ప్రాథమిక సమాచారం

లాజికల్ ఫలితాలు

మెరుగుదలలు

లోపాలు

సైబర్ హిస్టోరియన్ ఇలా అంటాడు

You Might Also Like

Claude Code Buddy మార్పు మార్గదర్శకం: ఎలా పొందాలి మెరుపు పురాణ స్థాయి పెంపుడు

Obsidian Defuddle విడుదల చేసింది, Obsidian Web Clipper ను కొత్త ఎత్తుకు తీసుకువెళ్ళింది

2026, ఇకపై మీరే 'ఆత్మ నియంత్రణ'ని బలవంతం చేయవద్దు! ఈ 8 చిన్న విషయాలను సరిగ్గా చేయండి, ఆరోగ్యం స్వయంగా వస్తుంది

అవి కష్టపడుతున్న తల్లులు, బరువు తగ్గలేక పోతున్న వారు, ఇక్కడే తప్పు చేస్తున్నారు

AI Browser 24小时稳定运行指南