小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?
小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?

ทีมงาน Xiaohongshu ได้เปิดตัวเกณฑ์มาตรฐานใหม่ SWE-Bench Mobile ซึ่งออกแบบมาเพื่อประเมินประสิทธิภาพของ AI Agent บนฐานโค้ดแอปพลิเคชันมือถือจริง ผลลัพธ์ที่ได้น่าคิด: แม้แต่ AI Agent ชั้นนำ ก็มีอัตราการผ่านสูงสุดเพียง 12% เมื่อเผชิญหน้ากับฐานโค้ดของแอปที่มีผู้ใช้หลายร้อยล้านคน

什么是 SWE-Bench Mobile? (SWE-Bench Mobile คืออะไร?)

SWE-Bench Mobile คือเกณฑ์มาตรฐานสำหรับการแก้ไขโค้ดที่มุ่งเน้นการพัฒนาแอปพลิเคชันมือถือ ประกอบด้วยงานแก้ไขข้อผิดพลาดของแอปพลิเคชันมือถือจริง ซึ่งกำหนดให้ AI Agent สามารถ:
- 理解复杂的移动应用代码结构 (ทำความเข้าใจโครงสร้างโค้ดแอปพลิเคชันมือถือที่ซับซ้อน)
- 定位问题根源 (ระบุแหล่งที่มาของปัญหา)
- 生成正确的修复代码 (สร้างโค้ดแก้ไขที่ถูกต้อง)
- 确保修复不会引入新问题 (ตรวจสอบให้แน่ใจว่าการแก้ไขจะไม่ก่อให้เกิดปัญหาใหม่)
测试结果 (ผลการทดสอบ)

ในการทดสอบ AI Agent หลักหลายตัวมีประสิทธิภาพดังนี้:
- 最佳表现:12% 通过率 (ประสิทธิภาพที่ดีที่สุด: อัตราการผ่าน 12%)
- 平均水平:5-8% 通过率 (ระดับเฉลี่ย: อัตราการผ่าน 5-8%)
- 部分模型:接近 0% 通过率 (บางโมเดล: อัตราการผ่านใกล้เคียง 0%)
ผลลัพธ์นี้ต่ำกว่าประสิทธิภาพบน SWE-Bench แบบดั้งเดิมมาก
为什么这么难? (ทำไมถึงยากขนาดนี้?)

ลักษณะเฉพาะของฐานโค้ดแอปพลิเคชันมือถือทำให้เกิดความท้าทายเพิ่มเติม:
- 多端适配:需要同时考虑 iOS 和 Android 平台 (การปรับให้เข้ากับหลายแพลตฟอร์ม: ต้องพิจารณาทั้งแพลตฟอร์ม iOS และ Android พร้อมกัน)
- 复杂的依赖关系:移动应用的模块间耦合度高 (ความสัมพันธ์ที่ซับซ้อน: การเชื่อมต่อระหว่างโมดูลของแอปพลิเคชันมือถือสูง)
- 性能约束:移动设备资源有限,代码优化要求高 (ข้อจำกัดด้านประสิทธิภาพ: ทรัพยากรของอุปกรณ์มือถือมีจำกัด ข้อกำหนดในการเพิ่มประสิทธิภาพโค้ดจึงสูง)
- UI 逻辑复杂:界面交互代码难以静态分析 (ตรรกะ UI ที่ซับซ้อน: โค้ดการโต้ตอบของอินเทอร์เฟซนั้นยากต่อการวิเคราะห์แบบสแตติก)
与传统基准的对比 (การเปรียบเทียบกับเกณฑ์มาตรฐานแบบดั้งเดิม)

เมื่อเทียบกับ SWE-Bench แบบดั้งเดิม เวอร์ชัน Mobile มีความยากเพิ่มขึ้นอย่างมาก:
- 代码库规模更大 (ขนาดฐานโค้ดใหญ่กว่า)
- 业务逻辑更复杂 (ตรรกะทางธุรกิจซับซ้อนกว่า)
- 测试用例更难通过 (กรณีทดสอบผ่านได้ยากกว่า)
- 上下文窗口要求更高 (ข้อกำหนดหน้าต่างบริบทสูงกว่า)
行业意义 (ความสำคัญต่ออุตสาหกรรม)

เกณฑ์มาตรฐานนี้เผยให้เห็นข้อจำกัดของ AI Agent ในสถานการณ์อุตสาหกรรมจริง แม้ว่า AI จะมีความก้าวหน้าอย่างรวดเร็วในการสร้างโค้ด แต่ก็ยังมีหนทางอีกยาวไกลในการจัดการกับโครงการขนาดใหญ่และซับซ้อนจริง
未来展望 (แนวโน้มในอนาคต)

การเปิดตัว SWE-Bench Mobile เป็นมาตรฐานการวัดที่สำคัญสำหรับการพัฒนาเครื่องมือเขียนโปรแกรม AI เป็นการเตือนเราว่า:
- AI 辅助编程仍需人类监督 (การเขียนโปรแกรมด้วย AI ยังคงต้องมีการกำกับดูแลจากมนุษย์)
- 复杂项目需要更智能的上下文理解 (โครงการที่ซับซ้อนต้องการความเข้าใจบริบทที่ชาญฉลาดยิ่งขึ้น)
- 模型能力还有很大提升空间 (ความสามารถของโมเดลยังมีช่องว่างสำหรับการปรับปรุงอีกมาก)
资源链接 (ลิงก์ทรัพยากร)






