சிறு சிவப்பு புத்தகம் SWE-Bench Mobile ஐ வெளியிட்டது: AI முகவர் நூறு மில்லியன் பயனர்களின் App குறியீட்டுத் தளத்தை எதிர்கொள்ளும்போது, அதிகபட்ச தேர்ச்சி விகிதம் 12% மட்டுமே?
சிறு சிவப்பு புத்தகம் SWE-Bench Mobile ஐ வெளியிட்டது: AI முகவர் நூறு மில்லியன் பயனர்களின் App குறியீட்டுத் தளத்தை எதிர்கொள்ளும்போது, அதிகபட்ச தேர்ச்சி விகிதம் 12% மட்டுமே?

சிறு சிவப்பு புத்தகம் குழு SWE-Bench Mobile என்ற புதிய தரப்படுத்தல் சோதனையை வெளியிட்டுள்ளது. இது உண்மையான மொபைல் பயன்பாட்டு குறியீட்டுத் தளத்தில் AI முகவரின் செயல்திறனை மதிப்பிடுவதற்காக சிறப்பாக வடிவமைக்கப்பட்டுள்ளது. இதன் முடிவுகள் ஆழமான சிந்தனையைத் தூண்டுகின்றன: சிறந்த AI முகவராக இருந்தாலும், நூறு மில்லியன் பயனர்களின் App குறியீட்டுத் தளத்தை எதிர்கொள்ளும்போது, அதிகபட்ச தேர்ச்சி விகிதம் 12% மட்டுமே.

SWE-Bench Mobile என்றால் என்ன?

SWE-Bench Mobile என்பது மொபைல் பயன்பாட்டு மேம்பாட்டிற்கான குறியீடு பிழை திருத்தும் தரப்படுத்தல் சோதனை ஆகும். இதில் உண்மையான மொபைல் பயன்பாட்டு பிழை திருத்தும் பணிகள் உள்ளன. இது AI முகவர் பின்வருவனவற்றைச் செய்ய வேண்டும் என்று கோருகிறது:
- சிக்கலான மொபைல் பயன்பாட்டு குறியீட்டு கட்டமைப்பைப் புரிந்து கொள்ளுதல்
- சிக்கலின் மூல காரணத்தைக் கண்டறிதல்
- சரியான திருத்தும் குறியீட்டை உருவாக்குதல்
- திருத்தம் புதிய சிக்கல்களை அறிமுகப்படுத்தாது என்பதை உறுதி செய்தல்
சோதனை முடிவுகள்

சோதனையில், பல முக்கிய AI முகவர்களின் செயல்திறன் பின்வருமாறு இருந்தது:
- சிறந்த செயல்திறன்: 12% தேர்ச்சி விகிதம்
- சராசரி நிலை: 5-8% தேர்ச்சி விகிதம்
- சில மாதிரிகள்: 0% தேர்ச்சி விகிதத்திற்கு அருகில்
இந்த முடிவு பாரம்பரிய SWE-Bench இல் உள்ள செயல்திறனை விட மிகக் குறைவு.
இது ஏன் இவ்வளவு கடினம்?

மொபைல் பயன்பாட்டு குறியீட்டுத் தளத்தின் தனித்தன்மை கூடுதல் சவால்களைக் கொண்டுவருகிறது:
- பல முனை தழுவல்: iOS மற்றும் Android இயங்குதளங்களை ஒரே நேரத்தில் கருத்தில் கொள்ள வேண்டும்
- சிக்கலான சார்பு உறவுகள்: மொபைல் பயன்பாடுகளின் தொகுதிகளுக்கு இடையிலான இணைப்பு அதிகமாக உள்ளது
- செயல்திறன் கட்டுப்பாடுகள்: மொபைல் சாதன வளங்கள் குறைவாக உள்ளன, குறியீடு மேம்படுத்தல் தேவை அதிகமாக உள்ளது
- UI தர்க்கம் சிக்கலானது: இடைமுக தொடர்பு குறியீட்டை நிலையான முறையில் பகுப்பாய்வு செய்வது கடினம்
பாரம்பரிய தரநிலையுடன் ஒப்பீடு

பாரம்பரிய SWE-Bench உடன் ஒப்பிடும்போது, Mobile பதிப்பின் சிரமம் கணிசமாக அதிகரித்துள்ளது:
- குறியீட்டுத் தளத்தின் அளவு பெரியது
- வணிக தர்க்கம் மிகவும் சிக்கலானது
- சோதனை வழக்குகள் தேர்ச்சி பெறுவது கடினம்
- சூழல் சாளரத்தின் தேவை அதிகமாக உள்ளது
தொழில்துறை முக்கியத்துவம்

இந்த தரப்படுத்தல் சோதனை உண்மையான தொழில்துறை காட்சிகளில் AI முகவரின் வரம்புகளை வெளிப்படுத்துகிறது. குறியீடு உருவாக்கத்தில் AI வேகமாக முன்னேறி வந்தாலும், பெரிய, சிக்கலான உண்மையான திட்டங்களைக் கையாளும் போது, இன்னும் நீண்ட தூரம் செல்ல வேண்டியுள்ளது.
எதிர்கால முன்னோக்கு

SWE-Bench Mobile இன் வெளியீடு AI நிரலாக்க கருவிகளின் வளர்ச்சிக்கு ஒரு முக்கியமான அளவுகோலை வழங்குகிறது. இது நமக்கு நினைவூட்டுகிறது:
- AI உதவி நிரலாக்கத்திற்கு இன்னும் மனித மேற்பார்வை தேவை
- சிக்கலான திட்டங்களுக்கு மிகவும் அறிவார்ந்த சூழல் புரிதல் தேவை
- மாதிரி திறனில் இன்னும் அதிக முன்னேற்றத்திற்கான வாய்ப்பு உள்ளது
ஆதார இணைப்புகள்

- ஆய்வறிக்கை: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





