சிறு சிவப்பு புத்தகம் SWE-Bench Mobile ஐ வெளியிட்டது: AI முகவர் நூறு மில்லியன் பயனர்களின் App குறியீட்டுத் தளத்தை எதிர்கொள்ளும்போது, அதிகபட்ச தேர்ச்சி விகிதம் 12% மட்டுமே?

2/15/2026
2 min read

சிறு சிவப்பு புத்தகம் SWE-Bench Mobile ஐ வெளியிட்டது: AI முகவர் நூறு மில்லியன் பயனர்களின் App குறியீட்டுத் தளத்தை எதிர்கொள்ளும்போது, அதிகபட்ச தேர்ச்சி விகிதம் 12% மட்டுமே?

SWE-Bench Mobile

சிறு சிவப்பு புத்தகம் குழு SWE-Bench Mobile என்ற புதிய தரப்படுத்தல் சோதனையை வெளியிட்டுள்ளது. இது உண்மையான மொபைல் பயன்பாட்டு குறியீட்டுத் தளத்தில் AI முகவரின் செயல்திறனை மதிப்பிடுவதற்காக சிறப்பாக வடிவமைக்கப்பட்டுள்ளது. இதன் முடிவுகள் ஆழமான சிந்தனையைத் தூண்டுகின்றன: சிறந்த AI முகவராக இருந்தாலும், நூறு மில்லியன் பயனர்களின் App குறியீட்டுத் தளத்தை எதிர்கொள்ளும்போது, அதிகபட்ச தேர்ச்சி விகிதம் 12% மட்டுமே.

சோதனை சூழ்நிலை

SWE-Bench Mobile என்றால் என்ன?

அறிமுகம்

SWE-Bench Mobile என்பது மொபைல் பயன்பாட்டு மேம்பாட்டிற்கான குறியீடு பிழை திருத்தும் தரப்படுத்தல் சோதனை ஆகும். இதில் உண்மையான மொபைல் பயன்பாட்டு பிழை திருத்தும் பணிகள் உள்ளன. இது AI முகவர் பின்வருவனவற்றைச் செய்ய வேண்டும் என்று கோருகிறது:

  • சிக்கலான மொபைல் பயன்பாட்டு குறியீட்டு கட்டமைப்பைப் புரிந்து கொள்ளுதல்
  • சிக்கலின் மூல காரணத்தைக் கண்டறிதல்
  • சரியான திருத்தும் குறியீட்டை உருவாக்குதல்
  • திருத்தம் புதிய சிக்கல்களை அறிமுகப்படுத்தாது என்பதை உறுதி செய்தல்

சோதனை முடிவுகள்

சோதனை முடிவுகள்

சோதனையில், பல முக்கிய AI முகவர்களின் செயல்திறன் பின்வருமாறு இருந்தது:

  • சிறந்த செயல்திறன்: 12% தேர்ச்சி விகிதம்
  • சராசரி நிலை: 5-8% தேர்ச்சி விகிதம்
  • சில மாதிரிகள்: 0% தேர்ச்சி விகிதத்திற்கு அருகில்

இந்த முடிவு பாரம்பரிய SWE-Bench இல் உள்ள செயல்திறனை விட மிகக் குறைவு.

இது ஏன் இவ்வளவு கடினம்?

சவால் பகுப்பாய்வு

மொபைல் பயன்பாட்டு குறியீட்டுத் தளத்தின் தனித்தன்மை கூடுதல் சவால்களைக் கொண்டுவருகிறது:

  • பல முனை தழுவல்: iOS மற்றும் Android இயங்குதளங்களை ஒரே நேரத்தில் கருத்தில் கொள்ள வேண்டும்
  • சிக்கலான சார்பு உறவுகள்: மொபைல் பயன்பாடுகளின் தொகுதிகளுக்கு இடையிலான இணைப்பு அதிகமாக உள்ளது
  • செயல்திறன் கட்டுப்பாடுகள்: மொபைல் சாதன வளங்கள் குறைவாக உள்ளன, குறியீடு மேம்படுத்தல் தேவை அதிகமாக உள்ளது
  • UI தர்க்கம் சிக்கலானது: இடைமுக தொடர்பு குறியீட்டை நிலையான முறையில் பகுப்பாய்வு செய்வது கடினம்

பாரம்பரிய தரநிலையுடன் ஒப்பீடு

ஒப்பீட்டு பகுப்பாய்வு

பாரம்பரிய SWE-Bench உடன் ஒப்பிடும்போது, Mobile பதிப்பின் சிரமம் கணிசமாக அதிகரித்துள்ளது:

  • குறியீட்டுத் தளத்தின் அளவு பெரியது
  • வணிக தர்க்கம் மிகவும் சிக்கலானது
  • சோதனை வழக்குகள் தேர்ச்சி பெறுவது கடினம்
  • சூழல் சாளரத்தின் தேவை அதிகமாக உள்ளது

தொழில்துறை முக்கியத்துவம்

தொழில்துறை முக்கியத்துவம்

இந்த தரப்படுத்தல் சோதனை உண்மையான தொழில்துறை காட்சிகளில் AI முகவரின் வரம்புகளை வெளிப்படுத்துகிறது. குறியீடு உருவாக்கத்தில் AI வேகமாக முன்னேறி வந்தாலும், பெரிய, சிக்கலான உண்மையான திட்டங்களைக் கையாளும் போது, இன்னும் நீண்ட தூரம் செல்ல வேண்டியுள்ளது.

எதிர்கால முன்னோக்கு

எதிர்கால முன்னோக்கு

SWE-Bench Mobile இன் வெளியீடு AI நிரலாக்க கருவிகளின் வளர்ச்சிக்கு ஒரு முக்கியமான அளவுகோலை வழங்குகிறது. இது நமக்கு நினைவூட்டுகிறது:

  • AI உதவி நிரலாக்கத்திற்கு இன்னும் மனித மேற்பார்வை தேவை
  • சிக்கலான திட்டங்களுக்கு மிகவும் அறிவார்ந்த சூழல் புரிதல் தேவை
  • மாதிரி திறனில் இன்னும் அதிக முன்னேற்றத்திற்கான வாய்ப்பு உள்ளது

ஆதார இணைப்புகள்

ஆதாரங்கள்

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy மாற்றம் வழிகாட்டி: எவ்வாறு மின்ன闪传说 நிலை செல்லப்பிராணிகளை பெறுவது

Claude Code Buddy மாற்றம் வழிகாட்டி: எவ்வாறு மின்ன闪传说 நிலை செல்லப்பிராணிகளை பெறுவது 2026年4月1日,Anthropic 在 Claude Code 2....

Obsidian வெளியிட்ட Defuddle, Obsidian Web Clipper-ஐ புதிய உயரத்திற்கு கொண்டு சென்றதுTechnology

Obsidian வெளியிட்ட Defuddle, Obsidian Web Clipper-ஐ புதிய உயரத்திற்கு கொண்டு சென்றது

Obsidian வெளியிட்ட Defuddle, Obsidian Web Clipper-ஐ புதிய உயரத்திற்கு கொண்டு சென்றது நான் எப்போதும் Obsidian-இன் மையக் ...

OpenAI திடீரென "மூன்று-in-ஒன்று" அறிவிப்பு: உலாவி + நிரலாக்கம் + ChatGPT இணைப்பு, கடந்த ஆண்டு தவறான பாதையில் சென்றது என உள்ளூரில் ஒப்புதல்Technology

OpenAI திடீரென "மூன்று-in-ஒன்று" அறிவிப்பு: உலாவி + நிரலாக்கம் + ChatGPT இணைப்பு, கடந்த ஆண்டு தவறான பாதையில் சென்றது என உள்ளூரில் ஒப்புதல்

OpenAI திடீரென "மூன்று-in-ஒன்று" அறிவிப்பு: உலாவி + நிரலாக்கம் + ChatGPT இணைப்பு, கடந்த ஆண்டு தவறான பாதையில் சென்றது என ...

2026, உங்களை 'சுய கட்டுப்பாடு' செய்ய அழைக்காதீர்கள்! இந்த 8 சிறிய விஷயங்களைச் செய்யுங்கள், ஆரோக்கியம் தானாகவே வரும்Health

2026, உங்களை 'சுய கட்டுப்பாடு' செய்ய அழைக்காதீர்கள்! இந்த 8 சிறிய விஷயங்களைச் செய்யுங்கள், ஆரோக்கியம் தானாகவே வரும்

2026, உங்களை 'சுய கட்டுப்பாடு' செய்ய அழைக்காதீர்கள்! இந்த 8 சிறிய விஷயங்களைச் செய்யுங்கள், ஆரோக்கியம் தானாகவே வரும் புத...

அந்த முயற்சியுடன் எடை குறைக்க முயற்சிக்கும் அம்மாக்கள், இங்கே தவறுகிறார்கள்Health

அந்த முயற்சியுடன் எடை குறைக்க முயற்சிக்கும் அம்மாக்கள், இங்கே தவறுகிறார்கள்

அந்த முயற்சியுடன் எடை குறைக்க முயற்சிக்கும் அம்மாக்கள், இங்கே தவறுகிறார்கள் மார்ச் மாதம் மிதமான நிலையில் உள்ளது, உங்கள்...

📝
Technology

AI Browser 24 மணி நேர நிலையான இயக்கம் வழிகாட்டி

AI Browser 24 மணி நேர நிலையான இயக்கம் வழிகாட்டி இந்த பயிற்சி நிலையான, நீண்ட காலம் இயங்கும் AI உலாவி சூழலை அமைக்க எப்படி ...