Xiaohongshu Merilis SWE-Bench Mobile: Ketika AI Agent Menghadapi Kode Basis Aplikasi dengan Ratusan Juta Pengguna, Tingkat Keberhasilan Tertinggi Hanya 12%?
Xiaohongshu Merilis SWE-Bench Mobile: Ketika AI Agent Menghadapi Kode Basis Aplikasi dengan Ratusan Juta Pengguna, Tingkat Keberhasilan Tertinggi Hanya 12%?

Tim Xiaohongshu merilis tolok ukur baru SWE-Bench Mobile, yang secara khusus digunakan untuk mengevaluasi kinerja AI Agent pada kode basis aplikasi seluler yang nyata. Hasilnya menggugah pikiran: bahkan AI Agent terbaik pun, ketika menghadapi kode basis App dengan ratusan juta pengguna, tingkat keberhasilan tertinggi hanya 12%.
// 测试场景: Skenario Pengujian
Apa itu SWE-Bench Mobile?
// 基准介绍: Pengenalan Tolok Ukur
SWE-Bench Mobile adalah tolok ukur perbaikan kode yang ditujukan untuk pengembangan aplikasi seluler. Ini berisi tugas perbaikan Bug aplikasi seluler yang nyata, yang mengharuskan AI Agent untuk:
- Memahami struktur kode aplikasi seluler yang kompleks
- Menemukan akar masalah
- Menghasilkan kode perbaikan yang benar
- Memastikan perbaikan tidak menimbulkan masalah baru
Hasil Pengujian
// 测试结果: Hasil Pengujian
Dalam pengujian, kinerja beberapa AI Agent utama adalah sebagai berikut:
- Kinerja Terbaik: Tingkat keberhasilan 12%
- Tingkat Rata-rata: Tingkat keberhasilan 5-8%
- Beberapa Model: Tingkat keberhasilan mendekati 0%
Hasil ini jauh lebih rendah daripada kinerja pada SWE-Bench tradisional.
Mengapa begitu sulit?
// 挑战分析: Analisis Tantangan
Kekhususan kode basis aplikasi seluler membawa tantangan tambahan:
- Adaptasi Multi-Platform: Perlu mempertimbangkan platform iOS dan Android secara bersamaan
- Hubungan Dependensi yang Kompleks: Tingkat ketergantungan antar modul aplikasi seluler tinggi
- Batasan Kinerja: Sumber daya perangkat seluler terbatas, persyaratan optimasi kode tinggi
- Logika UI Kompleks: Kode interaksi antarmuka sulit dianalisis secara statis
Perbandingan dengan Tolok Ukur Tradisional
// 对比分析: Analisis Perbandingan
Dibandingkan dengan SWE-Bench tradisional, kesulitan versi Mobile meningkat secara signifikan:
- Skala kode basis lebih besar
- Logika bisnis lebih kompleks
- Kasus pengujian lebih sulit untuk dilalui
- Persyaratan jendela konteks lebih tinggi
Signifikansi Industri
// 行业意义: Signifikansi Industri
Tolok ukur ini mengungkapkan keterbatasan AI Agent dalam skenario industri yang nyata. Meskipun AI telah membuat kemajuan pesat dalam pembuatan kode, masih ada jalan panjang yang harus ditempuh dalam menangani proyek nyata yang besar dan kompleks.
Prospek Masa Depan
// 未来展望: Prospek Masa Depan
Rilis SWE-Bench Mobile memberikan standar pengukuran penting untuk pengembangan alat pemrograman AI. Ini mengingatkan kita bahwa:
- Pemrograman yang dibantu AI masih membutuhkan pengawasan manusia
- Proyek kompleks membutuhkan pemahaman konteks yang lebih cerdas
- Kemampuan model masih memiliki banyak ruang untuk ditingkatkan
Tautan Sumber Daya
// 资源: Sumber Daya





