Xiaohongshu SWE-Bench Mobile പുറത്തിറക്കി: AI ഏജന്റ് കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പ് കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ, ഏറ്റവും ഉയർന്ന വിജയ നിരക്ക് 12% മാത്രമോ?

2/15/2026
2 min read

Xiaohongshu SWE-Bench Mobile പുറത്തിറക്കി: AI ഏജന്റ് കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പ് കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ, ഏറ്റവും ഉയർന്ന വിജയ നിരക്ക് 12% മാത്രമോ?

SWE-Bench Mobile

യഥാർത്ഥ മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ലൈബ്രറിയിൽ AI ഏജന്റിന്റെ പ്രകടനം വിലയിരുത്തുന്നതിന് വേണ്ടി Xiaohongshu ടീം ഒരു പുതിയ ബെഞ്ച്മാർക്ക് SWE-Bench Mobile പുറത്തിറക്കി. ഇതിന്റെ ഫലം വളരെ ചിന്തോദ്ദീപകമാണ്: മികച്ച AI ഏജന്റുകൾക്ക് പോലും കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പിന്റെ കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ 12% വിജയം മാത്രമേ നേടാൻ കഴിഞ്ഞുള്ളൂ.

ടെസ്റ്റ് രംഗം

എന്താണ് SWE-Bench Mobile?

ബെഞ്ച്മാർക്ക് അവതരണം

SWE-Bench Mobile എന്നത് മൊബൈൽ ആപ്ലിക്കേഷൻ ഡെവലപ്‌മെന്റിനായുള്ള കോഡ് ഫിക്സിംഗ് ബെഞ്ച്മാർക്ക് ടെസ്റ്റാണ്. ഇതിൽ യഥാർത്ഥ മൊബൈൽ ആപ്ലിക്കേഷൻ ബഗ് ഫിക്സിംഗ് ടാസ്‌ക്കുകൾ അടങ്ങിയിരിക്കുന്നു. ഒരു AI ഏജന്റിന് ഇത്യാവശ്യമാണ്:

  • സങ്കീർണ്ണമായ മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ഘടന മനസ്സിലാക്കുക
  • പ്രശ്നത്തിന്റെ ഉറവിടം കണ്ടെത്തുക
  • ശരിയായ ഫിക്സിംഗ് കോഡ് ഉണ്ടാക്കുക
  • ഫിക്സിംഗ് പുതിയ പ്രശ്നങ്ങൾ ഉണ്ടാക്കുന്നില്ലെന്ന് ഉറപ്പാക്കുക

ടെസ്റ്റ് ഫലങ്ങൾ

ടെസ്റ്റ് ഫലങ്ങൾ

ടെസ്റ്റിൽ, നിരവധി പ്രധാന AI ഏജന്റുകളുടെ പ്രകടനം താഴെ പറയുന്നവയാണ്:

  • മികച്ച പ്രകടനം: 12% വിജയം
  • ശരാശരി: 5-8% വിജയം
  • ചില മോഡലുകൾ: 0% വിജയത്തിന് അടുത്ത്

ഈ ഫലം പരമ്പരാഗത SWE-Bench-ലെ പ്രകടനത്തേക്കാൾ വളരെ കുറവാണ്.

എന്തുകൊണ്ട് ഇത് വളരെ ബുദ്ധിമുട്ടാണ്?

വെല്ലുവിളി വിശകലനം

മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ലൈബ്രറിയുടെ പ്രത്യേകതകൾ കൂടുതൽ വെല്ലുവിളികൾ നൽകുന്നു:

  • മൾട്ടി-എൻഡ് അഡാപ്റ്റേഷൻ: iOS, Android പ്ലാറ്റ്‌ഫോമുകൾ ഒരേസമയം പരിഗണിക്കേണ്ടതുണ്ട്
  • സങ്കീർണ്ണമായ ഡിപൻഡൻസി ബന്ധങ്ങൾ: മൊബൈൽ ആപ്ലിക്കേഷനുകളുടെ മൊഡ്യൂളുകൾ തമ്മിൽ ഉയർന്ന ബന്ധമുണ്ട്
  • പ്രകടന നിയന്ത്രണങ്ങൾ: മൊബൈൽ ഉപകരണങ്ങൾക്ക് പരിമിതമായ വിഭവങ്ങളേയുള്ളൂ, അതിനാൽ കോഡ് ഒപ്റ്റിമൈസേഷന് ഉയർന്ന ആവശ്യകതകളുണ്ട്
  • UI ലോജിക് സങ്കീർണ്ണം: ഇന്റർഫേസ് ഇന്ററാക്ഷൻ കോഡ് സ്റ്റാറ്റിക് ആയി വിശകലനം ചെയ്യാൻ പ്രയാസമാണ്

പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളുമായുള്ള താരതമ്യം

താരതമ്യ വിശകലനം

പരമ്പരാഗത SWE-Bench-മായി താരതമ്യപ്പെടുത്തുമ്പോൾ, മൊബൈൽ പതിപ്പിന്റെ ബുദ്ധിമുട്ട് ഗണ്യമായി വർദ്ധിച്ചു:

  • കോഡ് ലൈബ്രറിയുടെ വലുപ്പം വലുതാണ്
  • ബിസിനസ് ലോജിക് കൂടുതൽ സങ്കീർണ്ണമാണ്
  • ടെസ്റ്റ് കേസുകൾ പാസാകാൻ കൂടുതൽ ബുദ്ധിമുട്ടാണ്
  • കോൺടെക്സ്റ്റ് വിൻഡോയ്ക്ക് ഉയർന്ന ആവശ്യകതകളുണ്ട്

വ്യവസായത്തിന്റെ പ്രാധാന്യം

വ്യവസായത്തിന്റെ പ്രാധാന്യം

ഈ ബെഞ്ച്മാർക്ക് ടെസ്റ്റ്, യഥാർത്ഥ വ്യാവസായിക രംഗത്ത് AI ഏജന്റിന്റെ പരിമിതികൾ വെളിപ്പെടുത്തുന്നു. കോഡ് ജനറേഷനിൽ AI അതിവേഗം പുരോഗതി കൈവരിക്കുന്നുണ്ടെങ്കിലും, വലിയതും സങ്കീർണ്ണവുമായ യഥാർത്ഥ പ്രോജക്ടുകൾ കൈകാര്യം ചെയ്യുമ്പോൾ ഇനിയും ഒരുപാട് മുന്നോട്ട് പോകാനുണ്ട്.

ഭാവിയിലുള്ള സാധ്യതകൾ

ഭാവിയിലുള്ള സാധ്യതകൾ

SWE-Bench Mobile-ന്റെ റിലീസ് AI പ്രോഗ്രാമിംഗ് ടൂളുകളുടെ വികസനത്തിന് ഒരു പ്രധാന അളവുകോലാണ്. ഇത് നമ്മെ ഓർമ്മിപ്പിക്കുന്നത്:

  • AI-യുടെ സഹായത്തോടെയുള്ള പ്രോഗ്രാമിംഗിന് ഇപ്പോളും മനുഷ്യന്റെ മേൽനോട്ടം ആവശ്യമാണ്
  • സങ്കീർണ്ണമായ പ്രോജക്ടുകൾക്ക് കൂടുതൽ മികച്ച കോൺടെക്സ്റ്റ് ഉണ്ടാകണം
  • മോഡൽ ശേഷിയിൽ ഇനിയും വലിയ പുരോഗതി നേടാനുണ്ട്

ഉറവിട ലിങ്കുകൾ

ഉറവിടം

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം 2026年4月1日,Anthropic 在 Claude Cod...

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയിTechnology

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി ഞാൻ എപ്പോഴും Obsidian-ന്റെ ആധാരഭ...

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചുTechnology

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചു

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റാ...

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരുംHealth

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും പുതിയ ...

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാംHealth

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം മാർച്ച് മാസത്തിന്റെ മധ്യത്തിൽ, നിങ്ങളുടെ കുറവാക്കൽ പദ്ധതിയേന്താണ്...

📝
Technology

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം ഈ ട്യൂട്ടോറിയൽ ഒരു സ്ഥിരമായ, ദീർഘകാല പ്രവർത്തനമുള്ള AI ബ്രൗസർ ...