சிறு சிவப்பு புத்தகம் SWE-Bench Mobile ஐ வெளியிட்டது: AI முகவர் நூறு மில்லியன் பயனர்களின் App குறியீட்டுத் தளத்தை எதிர்கொள்ளும்போது, அதிகபட்ச தேர்ச்சி விகிதம் 12% மட்டுமே?

SWE-Bench Mobile

சிறு சிவப்பு புத்தகம் குழு SWE-Bench Mobile என்ற புதிய தரப்படுத்தல் சோதனையை வெளியிட்டுள்ளது. இது உண்மையான மொபைல் பயன்பாட்டு குறியீட்டுத் தளத்தில் AI முகவரின் செயல்திறனை மதிப்பிடுவதற்காக சிறப்பாக வடிவமைக்கப்பட்டுள்ளது. இதன் முடிவுகள் ஆழமான சிந்தனையைத் தூண்டுகின்றன: சிறந்த AI முகவராக இருந்தாலும், நூறு மில்லியன் பயனர்களின் App குறியீட்டுத் தளத்தை எதிர்கொள்ளும்போது, அதிகபட்ச தேர்ச்சி விகிதம் 12% மட்டுமே.

சோதனை சூழ்நிலை

SWE-Bench Mobile என்றால் என்ன?

அறிமுகம்

SWE-Bench Mobile என்பது மொபைல் பயன்பாட்டு மேம்பாட்டிற்கான குறியீடு பிழை திருத்தும் தரப்படுத்தல் சோதனை ஆகும். இதில் உண்மையான மொபைல் பயன்பாட்டு பிழை திருத்தும் பணிகள் உள்ளன. இது AI முகவர் பின்வருவனவற்றைச் செய்ய வேண்டும் என்று கோருகிறது:

சிக்கலான மொபைல் பயன்பாட்டு குறியீட்டு கட்டமைப்பைப் புரிந்து கொள்ளுதல்
சிக்கலின் மூல காரணத்தைக் கண்டறிதல்
சரியான திருத்தும் குறியீட்டை உருவாக்குதல்
திருத்தம் புதிய சிக்கல்களை அறிமுகப்படுத்தாது என்பதை உறுதி செய்தல்

சோதனை முடிவுகள்

சோதனையில், பல முக்கிய AI முகவர்களின் செயல்திறன் பின்வருமாறு இருந்தது:

சிறந்த செயல்திறன்: 12% தேர்ச்சி விகிதம்
சராசரி நிலை: 5-8% தேர்ச்சி விகிதம்
சில மாதிரிகள்: 0% தேர்ச்சி விகிதத்திற்கு அருகில்

இந்த முடிவு பாரம்பரிய SWE-Bench இல் உள்ள செயல்திறனை விட மிகக் குறைவு.

இது ஏன் இவ்வளவு கடினம்?

சவால் பகுப்பாய்வு

மொபைல் பயன்பாட்டு குறியீட்டுத் தளத்தின் தனித்தன்மை கூடுதல் சவால்களைக் கொண்டுவருகிறது:

பல முனை தழுவல்: iOS மற்றும் Android இயங்குதளங்களை ஒரே நேரத்தில் கருத்தில் கொள்ள வேண்டும்
சிக்கலான சார்பு உறவுகள்: மொபைல் பயன்பாடுகளின் தொகுதிகளுக்கு இடையிலான இணைப்பு அதிகமாக உள்ளது
செயல்திறன் கட்டுப்பாடுகள்: மொபைல் சாதன வளங்கள் குறைவாக உள்ளன, குறியீடு மேம்படுத்தல் தேவை அதிகமாக உள்ளது
UI தர்க்கம் சிக்கலானது: இடைமுக தொடர்பு குறியீட்டை நிலையான முறையில் பகுப்பாய்வு செய்வது கடினம்

பாரம்பரிய தரநிலையுடன் ஒப்பீடு

ஒப்பீட்டு பகுப்பாய்வு

பாரம்பரிய SWE-Bench உடன் ஒப்பிடும்போது, Mobile பதிப்பின் சிரமம் கணிசமாக அதிகரித்துள்ளது:

குறியீட்டுத் தளத்தின் அளவு பெரியது
வணிக தர்க்கம் மிகவும் சிக்கலானது
சோதனை வழக்குகள் தேர்ச்சி பெறுவது கடினம்
சூழல் சாளரத்தின் தேவை அதிகமாக உள்ளது

தொழில்துறை முக்கியத்துவம்

இந்த தரப்படுத்தல் சோதனை உண்மையான தொழில்துறை காட்சிகளில் AI முகவரின் வரம்புகளை வெளிப்படுத்துகிறது. குறியீடு உருவாக்கத்தில் AI வேகமாக முன்னேறி வந்தாலும், பெரிய, சிக்கலான உண்மையான திட்டங்களைக் கையாளும் போது, இன்னும் நீண்ட தூரம் செல்ல வேண்டியுள்ளது.

எதிர்கால முன்னோக்கு

SWE-Bench Mobile இன் வெளியீடு AI நிரலாக்க கருவிகளின் வளர்ச்சிக்கு ஒரு முக்கியமான அளவுகோலை வழங்குகிறது. இது நமக்கு நினைவூட்டுகிறது:

AI உதவி நிரலாக்கத்திற்கு இன்னும் மனித மேற்பார்வை தேவை
சிக்கலான திட்டங்களுக்கு மிகவும் அறிவார்ந்த சூழல் புரிதல் தேவை
மாதிரி திறனில் இன்னும் அதிக முன்னேற்றத்திற்கான வாய்ப்பு உள்ளது

ஆதார இணைப்புகள்

ஆதாரங்கள்

ஆய்வறிக்கை: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

SWE-Bench Mobile என்றால் என்ன?

சோதனை முடிவுகள்

இது ஏன் இவ்வளவு கடினம்?

பாரம்பரிய தரநிலையுடன் ஒப்பீடு

தொழில்துறை முக்கியத்துவம்

எதிர்கால முன்னோக்கு

ஆதார இணைப்புகள்

You Might Also Like

Claude Code Buddy மாற்றம் வழிகாட்டி: எவ்வாறு மின்ன闪传说 நிலை செல்லப்பிராணிகளை பெறுவது

Obsidian வெளியிட்ட Defuddle, Obsidian Web Clipper-ஐ புதிய உயரத்திற்கு கொண்டு சென்றது

2026, உங்களை 'சுய கட்டுப்பாடு' செய்ய அழைக்காதீர்கள்! இந்த 8 சிறிய விஷயங்களைச் செய்யுங்கள், ஆரோக்கியம் தானாகவே வரும்

அந்த முயற்சியுடன் எடை குறைக்க முயற்சிக்கும் அம்மாக்கள், இங்கே தவறுகிறார்கள்

AI Browser 24 மணி நேர நிலையான இயக்கம் வழிகாட்டி