小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?
小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?

فريق 小红书 (Xiaohongshu) نشر معيارًا جديدًا للاختبار يسمى SWE-Bench Mobile، وهو مخصص لتقييم أداء وكلاء الذكاء الاصطناعي (AI Agent) على قواعد بيانات تطبيقات الهاتف المحمول الحقيقية. النتائج تبعث على التفكير: حتى أفضل وكلاء الذكاء الاصطناعي، عند مواجهة قاعدة بيانات تطبيق تضم مئات الملايين من المستخدمين، فإن أعلى معدل نجاح لديهم هو 12% فقط.

什么是 SWE-Bench Mobile? (ما هو SWE-Bench Mobile؟)

SWE-Bench Mobile هو معيار اختبار لإصلاح التعليمات البرمجية لتطبيقات الهاتف المحمول. يتضمن مهام إصلاح أخطاء حقيقية لتطبيقات الهاتف المحمول، ويتطلب من وكيل الذكاء الاصطناعي أن يكون قادرًا على:
- 理解复杂的移动应用代码结构 (فهم هياكل التعليمات البرمجية المعقدة لتطبيقات الهاتف المحمول)
- 定位问题根源 (تحديد أصل المشكلة)
- 生成正确的修复代码 (إنشاء تعليمات برمجية تصحيحية صحيحة)
- 确保修复不会引入新问题 (التأكد من أن الإصلاح لا يقدم مشاكل جديدة)
测试结果 (نتائج الاختبار)

في الاختبار، كان أداء العديد من وكلاء الذكاء الاصطناعي الرئيسيين كما يلي:
- 最佳表现:12% 通过率 (أفضل أداء: معدل نجاح 12%)
- 平均水平:5-8% 通过率 (المستوى المتوسط: معدل نجاح 5-8%)
- 部分模型:接近 0% 通过率 (بعض النماذج: تقترب من معدل نجاح 0%)
هذه النتيجة أقل بكثير من الأداء على SWE-Bench التقليدي.
为什么这么难? (لماذا هذا صعب للغاية؟)

تضفي خصوصية قواعد بيانات تطبيقات الهاتف المحمول تحديات إضافية:
- 多端适配:需要同时考虑 iOS 和 Android 平台 (التكيف مع أجهزة متعددة: يجب مراعاة منصتي iOS و Android في نفس الوقت)
- 复杂的依赖关系:移动应用的模块间耦合度高 (علاقات التبعية المعقدة: درجة الاقتران بين وحدات تطبيقات الهاتف المحمول عالية)
- 性能约束:移动设备资源有限,代码优化要求高 (قيود الأداء: موارد الأجهزة المحمولة محدودة، ومتطلبات تحسين التعليمات البرمجية عالية)
- UI 逻辑复杂:界面交互代码难以静态分析 (منطق واجهة المستخدم معقد: من الصعب تحليل التعليمات البرمجية لتفاعل الواجهة بشكل ثابت)
与传统基准的对比 (مقارنة بالمعايير التقليدية)

بالمقارنة مع SWE-Bench التقليدي، فإن صعوبة إصدار Mobile تزداد بشكل ملحوظ:
- 代码库规模更大 (حجم قاعدة التعليمات البرمجية أكبر)
- 业务逻辑更复杂 (منطق الأعمال أكثر تعقيدًا)
- 测试用例更难通过 (حالات الاختبار أكثر صعوبة في النجاح)
- 上下文窗口要求更高 (متطلبات نافذة السياق أعلى)
行业意义 (الأهمية الصناعية)

يكشف هذا المعيار عن قيود وكلاء الذكاء الاصطناعي في السيناريوهات الصناعية الحقيقية. على الرغم من أن الذكاء الاصطناعي يحرز تقدمًا سريعًا في إنشاء التعليمات البرمجية، إلا أنه لا يزال أمامه طريق طويل ليقطعه في التعامل مع المشاريع الحقيقية الكبيرة والمعقدة.
未来展望 (توقعات المستقبل)

يوفر إصدار SWE-Bench Mobile معيارًا مهمًا لتطوير أدوات برمجة الذكاء الاصطناعي. إنه يذكرنا بما يلي:
- AI 辅助编程仍需人类监督 (لا تزال البرمجة بمساعدة الذكاء الاصطناعي بحاجة إلى إشراف بشري)
- 复杂项目需要更智能的上下文理解 (تتطلب المشاريع المعقدة فهمًا أكثر ذكاءً للسياق)
- 模型能力还有很大提升空间 (لا تزال هناك مساحة كبيرة لتحسين قدرات النموذج)
资源链接 (روابط الموارد)






