ஷியு மினிமேக்ஸ் M2.5 மதிப்பாய்வு
ஷியு மினிமேக்ஸ் M2.5 மதிப்பாய்வு
சுருக்கமான முடிவு: கீழே வேரூன்றி, மேலே வளருங்கள்
அடிப்படை நிலைமை
ஷியுவின் முந்தைய தலைமுறை M2.1 தொழில்நுட்ப சிக்கல்கள் காரணமாக, நிரலாக்கத்தில் குறிப்பிடத்தக்க முன்னேற்றம் இருந்தாலும், தர்க்கரீதியான திறன் M2 ஐ விட பின்தங்கியிருந்தது. அதிர்ஷ்டவசமாக, M2.5 அடிப்படை தொழில்நுட்ப சிக்கல்களைத் தீர்த்தது, மேலும் திறன் இயல்பான நிலைக்குத் திரும்பியது. M2 உடன் ஒப்பிடும்போது, M2.5 இன் முன்னேற்றம் சுமார் 17% ஆகும்.
இருப்பினும், சில முன்னேற்றங்கள் நீண்ட சிந்தனைச் சங்கிலி மற்றும் ஆழமான தீர்வு இட ஆய்வு மூலம் பெறப்பட்டன. M2.5 இன் சராசரி டோக்கன் நுகர்வு சோதனை செய்யப்பட்ட அனைத்து மாடல்களிலும் 6 வது இடத்தில் உள்ளது, இது போட்டியாளரான Sonnet ஐ விட கிட்டத்தட்ட 2 மடங்கு அதிகம். அதிர்ஷ்டவசமாக, ஷியுவின் கணக்கீட்டு சக்திக்கு உத்தரவாதம் உள்ளது, மேலும் செலவு அதிகமாக இல்லை. நிரலாக்கம் Sonnet க்கு குறைபாடற்ற மாற்றாக இல்லாவிட்டாலும், அன்றாட பயன்பாட்டிற்கு இது முற்றிலும் பயன்படுத்தக்கூடியது. M2.5 இறுதியாக M2.1 அடைய விரும்பிய இலக்கை அடைந்தது.
தர்க்கரீதியான மதிப்பெண்கள்

*1 ஒப்பீட்டு உறவை முன்னிலைப்படுத்த அட்டவணை ஒரு பகுதியை மட்டுமே காட்டுகிறது ஒப்பிடக்கூடிய மாதிரிகள், முழுமையான வரிசையல்ல.
*2 கேள்விகள் மற்றும் சோதனை முறைகள், பார்க்கவும்: பெரிய மொழி மாதிரி - தர்க்கரீதியான திறன் கிடைமட்ட மதிப்பீடு 26-01 மாத தரவரிசை. #56 கேள்வி புதிதாகச் சேர்க்கப்பட்டது.
*3 முழுமையான தரவரிசை https://llm2014.github.io/llm_benchmark/ இல் புதுப்பிக்கப்பட்டது
*4 சிவப்பு என்பது சீனப் புத்தாண்டு காலத்திற்கான வரையறுக்கப்பட்ட பதிப்பு, இது மகிழ்ச்சியைக் குறிக்கிறது, வேறு எந்த அர்த்தமும் இல்லை.
M2.1 ஒரு பிழையுடன் கூடிய பதிப்பு மற்றும் தர்க்கரீதியான திறன் அசாதாரணமாகக் குறைவாக இருப்பதால், பின்வரும் உரை M2 மற்றும் M2.5 க்கு இடையிலான தலைமுறை ஒப்பீட்டை மட்டுமே செய்யும்.
மேம்பாடுகள்
- நிலையான அனுமானம்: M2.5 ஆரம்ப கட்டுப்பாடுகள் மற்றும் சூழல் விவரங்களை நீண்ட அனுமான செயல்பாட்டில் பராமரிக்க முடியும், எனவே அதிக சிரமம் இல்லாத சில சிக்கல்கள், ஆனால்





