Xiaohongshu SWE-Bench Mobile പുറത്തിറക്കി: AI ഏജന്റ് കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പ് കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ, ഏറ്റവും ഉയർന്ന വിജയ നിരക്ക് 12% മാത്രമോ?

SWE-Bench Mobile

യഥാർത്ഥ മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ലൈബ്രറിയിൽ AI ഏജന്റിന്റെ പ്രകടനം വിലയിരുത്തുന്നതിന് വേണ്ടി Xiaohongshu ടീം ഒരു പുതിയ ബെഞ്ച്മാർക്ക് SWE-Bench Mobile പുറത്തിറക്കി. ഇതിന്റെ ഫലം വളരെ ചിന്തോദ്ദീപകമാണ്: മികച്ച AI ഏജന്റുകൾക്ക് പോലും കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പിന്റെ കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ 12% വിജയം മാത്രമേ നേടാൻ കഴിഞ്ഞുള്ളൂ.

ടെസ്റ്റ് രംഗം

എന്താണ് SWE-Bench Mobile?

ബെഞ്ച്മാർക്ക് അവതരണം

SWE-Bench Mobile എന്നത് മൊബൈൽ ആപ്ലിക്കേഷൻ ഡെവലപ്‌മെന്റിനായുള്ള കോഡ് ഫിക്സിംഗ് ബെഞ്ച്മാർക്ക് ടെസ്റ്റാണ്. ഇതിൽ യഥാർത്ഥ മൊബൈൽ ആപ്ലിക്കേഷൻ ബഗ് ഫിക്സിംഗ് ടാസ്‌ക്കുകൾ അടങ്ങിയിരിക്കുന്നു. ഒരു AI ഏജന്റിന് ഇത്യാവശ്യമാണ്:

സങ്കീർണ്ണമായ മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ഘടന മനസ്സിലാക്കുക
പ്രശ്നത്തിന്റെ ഉറവിടം കണ്ടെത്തുക
ശരിയായ ഫിക്സിംഗ് കോഡ് ഉണ്ടാക്കുക
ഫിക്സിംഗ് പുതിയ പ്രശ്നങ്ങൾ ഉണ്ടാക്കുന്നില്ലെന്ന് ഉറപ്പാക്കുക

ടെസ്റ്റ് ഫലങ്ങൾ

ടെസ്റ്റിൽ, നിരവധി പ്രധാന AI ഏജന്റുകളുടെ പ്രകടനം താഴെ പറയുന്നവയാണ്:

മികച്ച പ്രകടനം: 12% വിജയം
ശരാശരി: 5-8% വിജയം
ചില മോഡലുകൾ: 0% വിജയത്തിന് അടുത്ത്

ഈ ഫലം പരമ്പരാഗത SWE-Bench-ലെ പ്രകടനത്തേക്കാൾ വളരെ കുറവാണ്.

എന്തുകൊണ്ട് ഇത് വളരെ ബുദ്ധിമുട്ടാണ്?

വെല്ലുവിളി വിശകലനം

മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ലൈബ്രറിയുടെ പ്രത്യേകതകൾ കൂടുതൽ വെല്ലുവിളികൾ നൽകുന്നു:

മൾട്ടി-എൻഡ് അഡാപ്റ്റേഷൻ: iOS, Android പ്ലാറ്റ്‌ഫോമുകൾ ഒരേസമയം പരിഗണിക്കേണ്ടതുണ്ട്
സങ്കീർണ്ണമായ ഡിപൻഡൻസി ബന്ധങ്ങൾ: മൊബൈൽ ആപ്ലിക്കേഷനുകളുടെ മൊഡ്യൂളുകൾ തമ്മിൽ ഉയർന്ന ബന്ധമുണ്ട്
പ്രകടന നിയന്ത്രണങ്ങൾ: മൊബൈൽ ഉപകരണങ്ങൾക്ക് പരിമിതമായ വിഭവങ്ങളേയുള്ളൂ, അതിനാൽ കോഡ് ഒപ്റ്റിമൈസേഷന് ഉയർന്ന ആവശ്യകതകളുണ്ട്
UI ലോജിക് സങ്കീർണ്ണം: ഇന്റർഫേസ് ഇന്ററാക്ഷൻ കോഡ് സ്റ്റാറ്റിക് ആയി വിശകലനം ചെയ്യാൻ പ്രയാസമാണ്

പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളുമായുള്ള താരതമ്യം

താരതമ്യ വിശകലനം

പരമ്പരാഗത SWE-Bench-മായി താരതമ്യപ്പെടുത്തുമ്പോൾ, മൊബൈൽ പതിപ്പിന്റെ ബുദ്ധിമുട്ട് ഗണ്യമായി വർദ്ധിച്ചു:

കോഡ് ലൈബ്രറിയുടെ വലുപ്പം വലുതാണ്
ബിസിനസ് ലോജിക് കൂടുതൽ സങ്കീർണ്ണമാണ്
ടെസ്റ്റ് കേസുകൾ പാസാകാൻ കൂടുതൽ ബുദ്ധിമുട്ടാണ്
കോൺടെക്സ്റ്റ് വിൻഡോയ്ക്ക് ഉയർന്ന ആവശ്യകതകളുണ്ട്

വ്യവസായത്തിന്റെ പ്രാധാന്യം

ഈ ബെഞ്ച്മാർക്ക് ടെസ്റ്റ്, യഥാർത്ഥ വ്യാവസായിക രംഗത്ത് AI ഏജന്റിന്റെ പരിമിതികൾ വെളിപ്പെടുത്തുന്നു. കോഡ് ജനറേഷനിൽ AI അതിവേഗം പുരോഗതി കൈവരിക്കുന്നുണ്ടെങ്കിലും, വലിയതും സങ്കീർണ്ണവുമായ യഥാർത്ഥ പ്രോജക്ടുകൾ കൈകാര്യം ചെയ്യുമ്പോൾ ഇനിയും ഒരുപാട് മുന്നോട്ട് പോകാനുണ്ട്.

ഭാവിയിലുള്ള സാധ്യതകൾ

SWE-Bench Mobile-ന്റെ റിലീസ് AI പ്രോഗ്രാമിംഗ് ടൂളുകളുടെ വികസനത്തിന് ഒരു പ്രധാന അളവുകോലാണ്. ഇത് നമ്മെ ഓർമ്മിപ്പിക്കുന്നത്:

AI-യുടെ സഹായത്തോടെയുള്ള പ്രോഗ്രാമിംഗിന് ഇപ്പോളും മനുഷ്യന്റെ മേൽനോട്ടം ആവശ്യമാണ്
സങ്കീർണ്ണമായ പ്രോജക്ടുകൾക്ക് കൂടുതൽ മികച്ച കോൺടെക്സ്റ്റ് ഉണ്ടാകണം
മോഡൽ ശേഷിയിൽ ഇനിയും വലിയ പുരോഗതി നേടാനുണ്ട്

ഉറവിട ലിങ്കുകൾ

ഉറവിടം

പ്രബന്ധം: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

എന്താണ് SWE-Bench Mobile?

ടെസ്റ്റ് ഫലങ്ങൾ

എന്തുകൊണ്ട് ഇത് വളരെ ബുദ്ധിമുട്ടാണ്?

പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളുമായുള്ള താരതമ്യം

വ്യവസായത്തിന്റെ പ്രാധാന്യം

ഭാവിയിലുള്ള സാധ്യതകൾ

ഉറവിട ലിങ്കുകൾ

You Might Also Like

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം