Xiaohongshu SWE-Bench Mobile പുറത്തിറക്കി: AI ഏജന്റ് കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പ് കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ, ഏറ്റവും ഉയർന്ന വിജയ നിരക്ക് 12% മാത്രമോ?
Xiaohongshu SWE-Bench Mobile പുറത്തിറക്കി: AI ഏജന്റ് കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പ് കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ, ഏറ്റവും ഉയർന്ന വിജയ നിരക്ക് 12% മാത്രമോ?

യഥാർത്ഥ മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ലൈബ്രറിയിൽ AI ഏജന്റിന്റെ പ്രകടനം വിലയിരുത്തുന്നതിന് വേണ്ടി Xiaohongshu ടീം ഒരു പുതിയ ബെഞ്ച്മാർക്ക് SWE-Bench Mobile പുറത്തിറക്കി. ഇതിന്റെ ഫലം വളരെ ചിന്തോദ്ദീപകമാണ്: മികച്ച AI ഏജന്റുകൾക്ക് പോലും കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പിന്റെ കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ 12% വിജയം മാത്രമേ നേടാൻ കഴിഞ്ഞുള്ളൂ.

എന്താണ് SWE-Bench Mobile?

SWE-Bench Mobile എന്നത് മൊബൈൽ ആപ്ലിക്കേഷൻ ഡെവലപ്മെന്റിനായുള്ള കോഡ് ഫിക്സിംഗ് ബെഞ്ച്മാർക്ക് ടെസ്റ്റാണ്. ഇതിൽ യഥാർത്ഥ മൊബൈൽ ആപ്ലിക്കേഷൻ ബഗ് ഫിക്സിംഗ് ടാസ്ക്കുകൾ അടങ്ങിയിരിക്കുന്നു. ഒരു AI ഏജന്റിന് ഇത്യാവശ്യമാണ്:
- സങ്കീർണ്ണമായ മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ഘടന മനസ്സിലാക്കുക
- പ്രശ്നത്തിന്റെ ഉറവിടം കണ്ടെത്തുക
- ശരിയായ ഫിക്സിംഗ് കോഡ് ഉണ്ടാക്കുക
- ഫിക്സിംഗ് പുതിയ പ്രശ്നങ്ങൾ ഉണ്ടാക്കുന്നില്ലെന്ന് ഉറപ്പാക്കുക
ടെസ്റ്റ് ഫലങ്ങൾ

ടെസ്റ്റിൽ, നിരവധി പ്രധാന AI ഏജന്റുകളുടെ പ്രകടനം താഴെ പറയുന്നവയാണ്:
- മികച്ച പ്രകടനം: 12% വിജയം
- ശരാശരി: 5-8% വിജയം
- ചില മോഡലുകൾ: 0% വിജയത്തിന് അടുത്ത്
ഈ ഫലം പരമ്പരാഗത SWE-Bench-ലെ പ്രകടനത്തേക്കാൾ വളരെ കുറവാണ്.
എന്തുകൊണ്ട് ഇത് വളരെ ബുദ്ധിമുട്ടാണ്?

മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ലൈബ്രറിയുടെ പ്രത്യേകതകൾ കൂടുതൽ വെല്ലുവിളികൾ നൽകുന്നു:
- മൾട്ടി-എൻഡ് അഡാപ്റ്റേഷൻ: iOS, Android പ്ലാറ്റ്ഫോമുകൾ ഒരേസമയം പരിഗണിക്കേണ്ടതുണ്ട്
- സങ്കീർണ്ണമായ ഡിപൻഡൻസി ബന്ധങ്ങൾ: മൊബൈൽ ആപ്ലിക്കേഷനുകളുടെ മൊഡ്യൂളുകൾ തമ്മിൽ ഉയർന്ന ബന്ധമുണ്ട്
- പ്രകടന നിയന്ത്രണങ്ങൾ: മൊബൈൽ ഉപകരണങ്ങൾക്ക് പരിമിതമായ വിഭവങ്ങളേയുള്ളൂ, അതിനാൽ കോഡ് ഒപ്റ്റിമൈസേഷന് ഉയർന്ന ആവശ്യകതകളുണ്ട്
- UI ലോജിക് സങ്കീർണ്ണം: ഇന്റർഫേസ് ഇന്ററാക്ഷൻ കോഡ് സ്റ്റാറ്റിക് ആയി വിശകലനം ചെയ്യാൻ പ്രയാസമാണ്
പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളുമായുള്ള താരതമ്യം

പരമ്പരാഗത SWE-Bench-മായി താരതമ്യപ്പെടുത്തുമ്പോൾ, മൊബൈൽ പതിപ്പിന്റെ ബുദ്ധിമുട്ട് ഗണ്യമായി വർദ്ധിച്ചു:
- കോഡ് ലൈബ്രറിയുടെ വലുപ്പം വലുതാണ്
- ബിസിനസ് ലോജിക് കൂടുതൽ സങ്കീർണ്ണമാണ്
- ടെസ്റ്റ് കേസുകൾ പാസാകാൻ കൂടുതൽ ബുദ്ധിമുട്ടാണ്
- കോൺടെക്സ്റ്റ് വിൻഡോയ്ക്ക് ഉയർന്ന ആവശ്യകതകളുണ്ട്
വ്യവസായത്തിന്റെ പ്രാധാന്യം

ഈ ബെഞ്ച്മാർക്ക് ടെസ്റ്റ്, യഥാർത്ഥ വ്യാവസായിക രംഗത്ത് AI ഏജന്റിന്റെ പരിമിതികൾ വെളിപ്പെടുത്തുന്നു. കോഡ് ജനറേഷനിൽ AI അതിവേഗം പുരോഗതി കൈവരിക്കുന്നുണ്ടെങ്കിലും, വലിയതും സങ്കീർണ്ണവുമായ യഥാർത്ഥ പ്രോജക്ടുകൾ കൈകാര്യം ചെയ്യുമ്പോൾ ഇനിയും ഒരുപാട് മുന്നോട്ട് പോകാനുണ്ട്.
ഭാവിയിലുള്ള സാധ്യതകൾ

SWE-Bench Mobile-ന്റെ റിലീസ് AI പ്രോഗ്രാമിംഗ് ടൂളുകളുടെ വികസനത്തിന് ഒരു പ്രധാന അളവുകോലാണ്. ഇത് നമ്മെ ഓർമ്മിപ്പിക്കുന്നത്:
- AI-യുടെ സഹായത്തോടെയുള്ള പ്രോഗ്രാമിംഗിന് ഇപ്പോളും മനുഷ്യന്റെ മേൽനോട്ടം ആവശ്യമാണ്
- സങ്കീർണ്ണമായ പ്രോജക്ടുകൾക്ക് കൂടുതൽ മികച്ച കോൺടെക്സ്റ്റ് ഉണ്ടാകണം
- മോഡൽ ശേഷിയിൽ ഇനിയും വലിയ പുരോഗതി നേടാനുണ്ട്
ഉറവിട ലിങ്കുകൾ

- പ്രബന്ധം: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





