Xiaohongshu SWE-Bench Mobile പുറത്തിറക്കി: AI ഏജന്റ് കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പ് കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ, ഏറ്റവും ഉയർന്ന വിജയ നിരക്ക് 12% മാത്രമോ?

2/15/2026
2 min read

Xiaohongshu SWE-Bench Mobile പുറത്തിറക്കി: AI ഏജന്റ് കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പ് കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ, ഏറ്റവും ഉയർന്ന വിജയ നിരക്ക് 12% മാത്രമോ?

SWE-Bench Mobile

യഥാർത്ഥ മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ലൈബ്രറിയിൽ AI ഏജന്റിന്റെ പ്രകടനം വിലയിരുത്തുന്നതിന് വേണ്ടി Xiaohongshu ടീം ഒരു പുതിയ ബെഞ്ച്മാർക്ക് SWE-Bench Mobile പുറത്തിറക്കി. ഇതിന്റെ ഫലം വളരെ ചിന്തോദ്ദീപകമാണ്: മികച്ച AI ഏജന്റുകൾക്ക് പോലും കോടിക്കണക്കിന് ഉപയോക്താക്കളുള്ള ആപ്പിന്റെ കോഡ് ലൈബ്രറിയെ അഭിമുഖീകരിക്കുമ്പോൾ 12% വിജയം മാത്രമേ നേടാൻ കഴിഞ്ഞുള്ളൂ.

ടെസ്റ്റ് രംഗം

എന്താണ് SWE-Bench Mobile?

ബെഞ്ച്മാർക്ക് അവതരണം

SWE-Bench Mobile എന്നത് മൊബൈൽ ആപ്ലിക്കേഷൻ ഡെവലപ്‌മെന്റിനായുള്ള കോഡ് ഫിക്സിംഗ് ബെഞ്ച്മാർക്ക് ടെസ്റ്റാണ്. ഇതിൽ യഥാർത്ഥ മൊബൈൽ ആപ്ലിക്കേഷൻ ബഗ് ഫിക്സിംഗ് ടാസ്‌ക്കുകൾ അടങ്ങിയിരിക്കുന്നു. ഒരു AI ഏജന്റിന് ഇത്യാവശ്യമാണ്:

  • സങ്കീർണ്ണമായ മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ഘടന മനസ്സിലാക്കുക
  • പ്രശ്നത്തിന്റെ ഉറവിടം കണ്ടെത്തുക
  • ശരിയായ ഫിക്സിംഗ് കോഡ് ഉണ്ടാക്കുക
  • ഫിക്സിംഗ് പുതിയ പ്രശ്നങ്ങൾ ഉണ്ടാക്കുന്നില്ലെന്ന് ഉറപ്പാക്കുക

ടെസ്റ്റ് ഫലങ്ങൾ

ടെസ്റ്റ് ഫലങ്ങൾ

ടെസ്റ്റിൽ, നിരവധി പ്രധാന AI ഏജന്റുകളുടെ പ്രകടനം താഴെ പറയുന്നവയാണ്:

  • മികച്ച പ്രകടനം: 12% വിജയം
  • ശരാശരി: 5-8% വിജയം
  • ചില മോഡലുകൾ: 0% വിജയത്തിന് അടുത്ത്

ഈ ഫലം പരമ്പരാഗത SWE-Bench-ലെ പ്രകടനത്തേക്കാൾ വളരെ കുറവാണ്.

എന്തുകൊണ്ട് ഇത് വളരെ ബുദ്ധിമുട്ടാണ്?

വെല്ലുവിളി വിശകലനം

മൊബൈൽ ആപ്ലിക്കേഷൻ കോഡ് ലൈബ്രറിയുടെ പ്രത്യേകതകൾ കൂടുതൽ വെല്ലുവിളികൾ നൽകുന്നു:

  • മൾട്ടി-എൻഡ് അഡാപ്റ്റേഷൻ: iOS, Android പ്ലാറ്റ്‌ഫോമുകൾ ഒരേസമയം പരിഗണിക്കേണ്ടതുണ്ട്
  • സങ്കീർണ്ണമായ ഡിപൻഡൻസി ബന്ധങ്ങൾ: മൊബൈൽ ആപ്ലിക്കേഷനുകളുടെ മൊഡ്യൂളുകൾ തമ്മിൽ ഉയർന്ന ബന്ധമുണ്ട്
  • പ്രകടന നിയന്ത്രണങ്ങൾ: മൊബൈൽ ഉപകരണങ്ങൾക്ക് പരിമിതമായ വിഭവങ്ങളേയുള്ളൂ, അതിനാൽ കോഡ് ഒപ്റ്റിമൈസേഷന് ഉയർന്ന ആവശ്യകതകളുണ്ട്
  • UI ലോജിക് സങ്കീർണ്ണം: ഇന്റർഫേസ് ഇന്ററാക്ഷൻ കോഡ് സ്റ്റാറ്റിക് ആയി വിശകലനം ചെയ്യാൻ പ്രയാസമാണ്

പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളുമായുള്ള താരതമ്യം

താരതമ്യ വിശകലനം

പരമ്പരാഗത SWE-Bench-മായി താരതമ്യപ്പെടുത്തുമ്പോൾ, മൊബൈൽ പതിപ്പിന്റെ ബുദ്ധിമുട്ട് ഗണ്യമായി വർദ്ധിച്ചു:

  • കോഡ് ലൈബ്രറിയുടെ വലുപ്പം വലുതാണ്
  • ബിസിനസ് ലോജിക് കൂടുതൽ സങ്കീർണ്ണമാണ്
  • ടെസ്റ്റ് കേസുകൾ പാസാകാൻ കൂടുതൽ ബുദ്ധിമുട്ടാണ്
  • കോൺടെക്സ്റ്റ് വിൻഡോയ്ക്ക് ഉയർന്ന ആവശ്യകതകളുണ്ട്

വ്യവസായത്തിന്റെ പ്രാധാന്യം

വ്യവസായത്തിന്റെ പ്രാധാന്യം

ഈ ബെഞ്ച്മാർക്ക് ടെസ്റ്റ്, യഥാർത്ഥ വ്യാവസായിക രംഗത്ത് AI ഏജന്റിന്റെ പരിമിതികൾ വെളിപ്പെടുത്തുന്നു. കോഡ് ജനറേഷനിൽ AI അതിവേഗം പുരോഗതി കൈവരിക്കുന്നുണ്ടെങ്കിലും, വലിയതും സങ്കീർണ്ണവുമായ യഥാർത്ഥ പ്രോജക്ടുകൾ കൈകാര്യം ചെയ്യുമ്പോൾ ഇനിയും ഒരുപാട് മുന്നോട്ട് പോകാനുണ്ട്.

ഭാവിയിലുള്ള സാധ്യതകൾ

ഭാവിയിലുള്ള സാധ്യതകൾ

SWE-Bench Mobile-ന്റെ റിലീസ് AI പ്രോഗ്രാമിംഗ് ടൂളുകളുടെ വികസനത്തിന് ഒരു പ്രധാന അളവുകോലാണ്. ഇത് നമ്മെ ഓർമ്മിപ്പിക്കുന്നത്:

  • AI-യുടെ സഹായത്തോടെയുള്ള പ്രോഗ്രാമിംഗിന് ഇപ്പോളും മനുഷ്യന്റെ മേൽനോട്ടം ആവശ്യമാണ്
  • സങ്കീർണ്ണമായ പ്രോജക്ടുകൾക്ക് കൂടുതൽ മികച്ച കോൺടെക്സ്റ്റ് ഉണ്ടാകണം
  • മോഡൽ ശേഷിയിൽ ഇനിയും വലിയ പുരോഗതി നേടാനുണ്ട്

ഉറവിട ലിങ്കുകൾ

ഉറവിടം

Published in Technology

You Might Also Like

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 在技术飞速发展的今天,人工智能(AI)已成为各行各业的热门话题。从医疗健康到金融服务,从教育到娱乐,AI 工具正在改变我们工作的方式。为此,我们整理出2026年值得关注的十大...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 在快速发展的云计算领域,Amazon Web Services (AWS) 一直是领军者,提供丰富的服务和工具,帮助开发者、企业和技术专家在云上有效工作。以下是2026年值得关注的十大AWS工...

2026年 Top 10 初创企业成功秘诀:助你在竞争中崭露头角Technology

2026年 Top 10 初创企业成功秘诀:助你在竞争中崭露头角

2026年 Top 10 初创企业成功秘诀:助你在竞争中崭露头角 在这个瞬息万变的商业环境中,初创企业面临着无数机遇和挑战。根据最近在 X/Twitter 上的讨论,我们提炼出了十个核心成功秘诀,帮助企业家在竞争中脱颖而出。这些秘诀不仅适用...

2026年 Top 10 AI工具推荐:提升工作效率的最佳选择Technology

2026年 Top 10 AI工具推荐:提升工作效率的最佳选择

2026年 Top 10 AI工具推荐:提升工作效率的最佳选择 在人工智能迅猛发展的今天,AI工具已成为各行各业提高工作效率、促进创新的重要伙伴。2026年,许多新的AI工具相继涌现,功能各异,能够帮助用户在不同的领域实现突破。本文将为您推...

比 iTerm2 更好用的 Claude Code 终端诞生了!Technology

比 iTerm2 更好用的 Claude Code 终端诞生了!

# 比 iTerm2 更好用的 Claude Code 终端诞生了! 大家好,我是 Guide。今天和大家聊聊几个近两年热度很高的"现代终端"。 对于开发者来说,终端可能是除了编辑器之外,每天打交道最多的界面:写代码、跑命令、看日志、连...

2026年 Top 10 AI 编程工具推荐:提升开发效率的最佳助手Technology

2026年 Top 10 AI 编程工具推荐:提升开发效率的最佳助手

# 2026年 Top 10 AI 编程工具推荐:提升开发效率的最佳助手 人工智能技术的迅猛发展伴随着,AI 编程工具逐渐成为开发者工作的一个重要支持。无论是加速代码编写、提升代码质量,还是优化项目管理,这些工具都在不断革新开发体验。本文...