小红书发布 SWE-Bench Mobile：当 AI Agent 面对亿级用户 App 代码库，最高通过率仅12%？

SWE-Bench Mobile

ทีมงาน Xiaohongshu ได้เปิดตัวเกณฑ์มาตรฐานใหม่ SWE-Bench Mobile ซึ่งออกแบบมาเพื่อประเมินประสิทธิภาพของ AI Agent บนฐานโค้ดแอปพลิเคชันมือถือจริง ผลลัพธ์ที่ได้น่าคิด: แม้แต่ AI Agent ชั้นนำ ก็มีอัตราการผ่านสูงสุดเพียง 12% เมื่อเผชิญหน้ากับฐานโค้ดของแอปที่มีผู้ใช้หลายร้อยล้านคน

测试场景

什么是 SWE-Bench Mobile？ (SWE-Bench Mobile คืออะไร?)

基准介绍

SWE-Bench Mobile คือเกณฑ์มาตรฐานสำหรับการแก้ไขโค้ดที่มุ่งเน้นการพัฒนาแอปพลิเคชันมือถือ ประกอบด้วยงานแก้ไขข้อผิดพลาดของแอปพลิเคชันมือถือจริง ซึ่งกำหนดให้ AI Agent สามารถ:

理解复杂的移动应用代码结构 (ทำความเข้าใจโครงสร้างโค้ดแอปพลิเคชันมือถือที่ซับซ้อน)
定位问题根源 (ระบุแหล่งที่มาของปัญหา)
生成正确的修复代码 (สร้างโค้ดแก้ไขที่ถูกต้อง)
确保修复不会引入新问题 (ตรวจสอบให้แน่ใจว่าการแก้ไขจะไม่ก่อให้เกิดปัญหาใหม่)

测试结果 (ผลการทดสอบ)

测试结果

ในการทดสอบ AI Agent หลักหลายตัวมีประสิทธิภาพดังนี้:

最佳表现：12% 通过率 (ประสิทธิภาพที่ดีที่สุด: อัตราการผ่าน 12%)
平均水平：5-8% 通过率 (ระดับเฉลี่ย: อัตราการผ่าน 5-8%)
部分模型：接近 0% 通过率 (บางโมเดล: อัตราการผ่านใกล้เคียง 0%)

ผลลัพธ์นี้ต่ำกว่าประสิทธิภาพบน SWE-Bench แบบดั้งเดิมมาก

为什么这么难？ (ทำไมถึงยากขนาดนี้?)

挑战分析

ลักษณะเฉพาะของฐานโค้ดแอปพลิเคชันมือถือทำให้เกิดความท้าทายเพิ่มเติม:

多端适配：需要同时考虑 iOS 和 Android 平台 (การปรับให้เข้ากับหลายแพลตฟอร์ม: ต้องพิจารณาทั้งแพลตฟอร์ม iOS และ Android พร้อมกัน)
复杂的依赖关系：移动应用的模块间耦合度高 (ความสัมพันธ์ที่ซับซ้อน: การเชื่อมต่อระหว่างโมดูลของแอปพลิเคชันมือถือสูง)
性能约束：移动设备资源有限，代码优化要求高 (ข้อจำกัดด้านประสิทธิภาพ: ทรัพยากรของอุปกรณ์มือถือมีจำกัด ข้อกำหนดในการเพิ่มประสิทธิภาพโค้ดจึงสูง)
UI 逻辑复杂：界面交互代码难以静态分析 (ตรรกะ UI ที่ซับซ้อน: โค้ดการโต้ตอบของอินเทอร์เฟซนั้นยากต่อการวิเคราะห์แบบสแตติก)

与传统基准的对比 (การเปรียบเทียบกับเกณฑ์มาตรฐานแบบดั้งเดิม)

对比分析

เมื่อเทียบกับ SWE-Bench แบบดั้งเดิม เวอร์ชัน Mobile มีความยากเพิ่มขึ้นอย่างมาก:

代码库规模更大 (ขนาดฐานโค้ดใหญ่กว่า)
业务逻辑更复杂 (ตรรกะทางธุรกิจซับซ้อนกว่า)
测试用例更难通过 (กรณีทดสอบผ่านได้ยากกว่า)
上下文窗口要求更高 (ข้อกำหนดหน้าต่างบริบทสูงกว่า)

行业意义 (ความสำคัญต่ออุตสาหกรรม)

行业意义

เกณฑ์มาตรฐานนี้เผยให้เห็นข้อจำกัดของ AI Agent ในสถานการณ์อุตสาหกรรมจริง แม้ว่า AI จะมีความก้าวหน้าอย่างรวดเร็วในการสร้างโค้ด แต่ก็ยังมีหนทางอีกยาวไกลในการจัดการกับโครงการขนาดใหญ่และซับซ้อนจริง