小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?

2/15/2026
1 min read

小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?

SWE-Bench Mobile

ทีมงาน Xiaohongshu ได้เปิดตัวเกณฑ์มาตรฐานใหม่ SWE-Bench Mobile ซึ่งออกแบบมาเพื่อประเมินประสิทธิภาพของ AI Agent บนฐานโค้ดแอปพลิเคชันมือถือจริง ผลลัพธ์ที่ได้น่าคิด: แม้แต่ AI Agent ชั้นนำ ก็มีอัตราการผ่านสูงสุดเพียง 12% เมื่อเผชิญหน้ากับฐานโค้ดของแอปที่มีผู้ใช้หลายร้อยล้านคน

测试场景

什么是 SWE-Bench Mobile? (SWE-Bench Mobile คืออะไร?)

基准介绍

SWE-Bench Mobile คือเกณฑ์มาตรฐานสำหรับการแก้ไขโค้ดที่มุ่งเน้นการพัฒนาแอปพลิเคชันมือถือ ประกอบด้วยงานแก้ไขข้อผิดพลาดของแอปพลิเคชันมือถือจริง ซึ่งกำหนดให้ AI Agent สามารถ:

  • 理解复杂的移动应用代码结构 (ทำความเข้าใจโครงสร้างโค้ดแอปพลิเคชันมือถือที่ซับซ้อน)
  • 定位问题根源 (ระบุแหล่งที่มาของปัญหา)
  • 生成正确的修复代码 (สร้างโค้ดแก้ไขที่ถูกต้อง)
  • 确保修复不会引入新问题 (ตรวจสอบให้แน่ใจว่าการแก้ไขจะไม่ก่อให้เกิดปัญหาใหม่)

测试结果 (ผลการทดสอบ)

测试结果

ในการทดสอบ AI Agent หลักหลายตัวมีประสิทธิภาพดังนี้:

  • 最佳表现:12% 通过率 (ประสิทธิภาพที่ดีที่สุด: อัตราการผ่าน 12%)
  • 平均水平:5-8% 通过率 (ระดับเฉลี่ย: อัตราการผ่าน 5-8%)
  • 部分模型:接近 0% 通过率 (บางโมเดล: อัตราการผ่านใกล้เคียง 0%)

ผลลัพธ์นี้ต่ำกว่าประสิทธิภาพบน SWE-Bench แบบดั้งเดิมมาก

为什么这么难? (ทำไมถึงยากขนาดนี้?)

挑战分析

ลักษณะเฉพาะของฐานโค้ดแอปพลิเคชันมือถือทำให้เกิดความท้าทายเพิ่มเติม:

  • 多端适配:需要同时考虑 iOS 和 Android 平台 (การปรับให้เข้ากับหลายแพลตฟอร์ม: ต้องพิจารณาทั้งแพลตฟอร์ม iOS และ Android พร้อมกัน)
  • 复杂的依赖关系:移动应用的模块间耦合度高 (ความสัมพันธ์ที่ซับซ้อน: การเชื่อมต่อระหว่างโมดูลของแอปพลิเคชันมือถือสูง)
  • 性能约束:移动设备资源有限,代码优化要求高 (ข้อจำกัดด้านประสิทธิภาพ: ทรัพยากรของอุปกรณ์มือถือมีจำกัด ข้อกำหนดในการเพิ่มประสิทธิภาพโค้ดจึงสูง)
  • UI 逻辑复杂:界面交互代码难以静态分析 (ตรรกะ UI ที่ซับซ้อน: โค้ดการโต้ตอบของอินเทอร์เฟซนั้นยากต่อการวิเคราะห์แบบสแตติก)

与传统基准的对比 (การเปรียบเทียบกับเกณฑ์มาตรฐานแบบดั้งเดิม)

对比分析

เมื่อเทียบกับ SWE-Bench แบบดั้งเดิม เวอร์ชัน Mobile มีความยากเพิ่มขึ้นอย่างมาก:

  • 代码库规模更大 (ขนาดฐานโค้ดใหญ่กว่า)
  • 业务逻辑更复杂 (ตรรกะทางธุรกิจซับซ้อนกว่า)
  • 测试用例更难通过 (กรณีทดสอบผ่านได้ยากกว่า)
  • 上下文窗口要求更高 (ข้อกำหนดหน้าต่างบริบทสูงกว่า)

行业意义 (ความสำคัญต่ออุตสาหกรรม)

行业意义

เกณฑ์มาตรฐานนี้เผยให้เห็นข้อจำกัดของ AI Agent ในสถานการณ์อุตสาหกรรมจริง แม้ว่า AI จะมีความก้าวหน้าอย่างรวดเร็วในการสร้างโค้ด แต่ก็ยังมีหนทางอีกยาวไกลในการจัดการกับโครงการขนาดใหญ่และซับซ้อนจริง

未来展望 (แนวโน้มในอนาคต)

未来展望

การเปิดตัว SWE-Bench Mobile เป็นมาตรฐานการวัดที่สำคัญสำหรับการพัฒนาเครื่องมือเขียนโปรแกรม AI เป็นการเตือนเราว่า:

  • AI 辅助编程仍需人类监督 (การเขียนโปรแกรมด้วย AI ยังคงต้องมีการกำกับดูแลจากมนุษย์)
  • 复杂项目需要更智能的上下文理解 (โครงการที่ซับซ้อนต้องการความเข้าใจบริบทที่ชาญฉลาดยิ่งขึ้น)
  • 模型能力还有很大提升空间 (ความสามารถของโมเดลยังมีช่องว่างสำหรับการปรับปรุงอีกมาก)

资源链接 (ลิงก์ทรัพยากร)

资源

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy แก้ไขคู่มือ: วิธีการรับสัตว์เลี้ยงระดับตำนานที่เปล่งประกาย

Claude Code Buddy แก้ไขคู่มือ: วิธีการรับสัตว์เลี้ยงระดับตำนานที่เปล่งประกาย วันที่ 1 เมษายน 2026, Anthropic ได้เปิดตัวฟ...

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่Technology

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่ ฉันชอบแนวคิดหลักของ Obsidian มาตลอด: เน้นที่การจัดเ...

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了Technology

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了 ในคืนวันที่ 19 มีนาคม 2026 มีการรั่วไหลของบันทึกภายในจากสำนักงานใหญ่ของ Op...

2026,不再逼自己"自律"!做好这8件小事,健康自然来Health

2026,不再逼自己"自律"!做好这8件小事,健康自然来

2026,不再逼自己"自律"!做好这8件小事,健康自然来 ปีใหม่เริ่มต้นขึ้นแล้ว ปีที่แล้วคุณทำตามเป้าหมายที่ตั้งไว้หรือยัง? คุณเคยรู้สึกสับสนระหว่า...

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้Health

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้ เดือนมีนาคมผ่านไปครึ่งหนึ่งแล้ว แผนการลดน้ำหนักของคุณเป็นอ...

📝
Technology

AI Browser 24 ชั่วโมงการทำงานที่เสถียร

AI Browser 24 ชั่วโมงการทำงานที่เสถียร บทแนะนำนี้จะอธิบายวิธีการตั้งค่า สภาพแวดล้อม AI เบราว์เซอร์ที่เสถียรและทำงานได้ยา...