小红书发布 SWE-Bench Mobile：当 AI Agent 面对亿级用户 App 代码库，最高通过率仅12%？

SWE-Bench Mobile

فريق 小红书 (Xiaohongshu) نشر معيارًا جديدًا للاختبار يسمى SWE-Bench Mobile، وهو مخصص لتقييم أداء وكلاء الذكاء الاصطناعي (AI Agent) على قواعد بيانات تطبيقات الهاتف المحمول الحقيقية. النتائج تبعث على التفكير: حتى أفضل وكلاء الذكاء الاصطناعي، عند مواجهة قاعدة بيانات تطبيق تضم مئات الملايين من المستخدمين، فإن أعلى معدل نجاح لديهم هو 12% فقط.

测试场景

什么是 SWE-Bench Mobile？ (ما هو SWE-Bench Mobile؟)

基准介绍

SWE-Bench Mobile هو معيار اختبار لإصلاح التعليمات البرمجية لتطبيقات الهاتف المحمول. يتضمن مهام إصلاح أخطاء حقيقية لتطبيقات الهاتف المحمول، ويتطلب من وكيل الذكاء الاصطناعي أن يكون قادرًا على:

理解复杂的移动应用代码结构 (فهم هياكل التعليمات البرمجية المعقدة لتطبيقات الهاتف المحمول)
定位问题根源 (تحديد أصل المشكلة)
生成正确的修复代码 (إنشاء تعليمات برمجية تصحيحية صحيحة)
确保修复不会引入新问题 (التأكد من أن الإصلاح لا يقدم مشاكل جديدة)

测试结果 (نتائج الاختبار)

测试结果

في الاختبار، كان أداء العديد من وكلاء الذكاء الاصطناعي الرئيسيين كما يلي:

最佳表现：12% 通过率 (أفضل أداء: معدل نجاح 12%)
平均水平：5-8% 通过率 (المستوى المتوسط: معدل نجاح 5-8%)
部分模型：接近 0% 通过率 (بعض النماذج: تقترب من معدل نجاح 0%)

هذه النتيجة أقل بكثير من الأداء على SWE-Bench التقليدي.

为什么这么难？ (لماذا هذا صعب للغاية؟)

挑战分析

تضفي خصوصية قواعد بيانات تطبيقات الهاتف المحمول تحديات إضافية:

多端适配：需要同时考虑 iOS 和 Android 平台 (التكيف مع أجهزة متعددة: يجب مراعاة منصتي iOS و Android في نفس الوقت)
复杂的依赖关系：移动应用的模块间耦合度高 (علاقات التبعية المعقدة: درجة الاقتران بين وحدات تطبيقات الهاتف المحمول عالية)
性能约束：移动设备资源有限，代码优化要求高 (قيود الأداء: موارد الأجهزة المحمولة محدودة، ومتطلبات تحسين التعليمات البرمجية عالية)
UI 逻辑复杂：界面交互代码难以静态分析 (منطق واجهة المستخدم معقد: من الصعب تحليل التعليمات البرمجية لتفاعل الواجهة بشكل ثابت)

与传统基准的对比 (مقارنة بالمعايير التقليدية)

对比分析

بالمقارنة مع SWE-Bench التقليدي، فإن صعوبة إصدار Mobile تزداد بشكل ملحوظ:

代码库规模更大 (حجم قاعدة التعليمات البرمجية أكبر)
业务逻辑更复杂 (منطق الأعمال أكثر تعقيدًا)
测试用例更难通过 (حالات الاختبار أكثر صعوبة في النجاح)
上下文窗口要求更高 (متطلبات نافذة السياق أعلى)

行业意义 (الأهمية الصناعية)

行业意义

يكشف هذا المعيار عن قيود وكلاء الذكاء الاصطناعي في السيناريوهات الصناعية الحقيقية. على الرغم من أن الذكاء الاصطناعي يحرز تقدمًا سريعًا في إنشاء التعليمات البرمجية، إلا أنه لا يزال أمامه طريق طويل ليقطعه في التعامل مع المشاريع الحقيقية الكبيرة والمعقدة.