小红书 melancarkan SWE-Bench Mobile: Apabila Ejen AI Menghadapi Pangkalan Kod Aplikasi Berjuta Pengguna, Kadar Lulus Tertinggi Hanya 12%?
小红书 melancarkan SWE-Bench Mobile: Apabila Ejen AI Menghadapi Pangkalan Kod Aplikasi Berjuta Pengguna, Kadar Lulus Tertinggi Hanya 12%?

Pasukan 小红书 telah melancarkan penanda aras baharu SWE-Bench Mobile, khusus untuk menilai prestasi Ejen AI pada pangkalan kod aplikasi mudah alih sebenar. Hasilnya membimbangkan: Walaupun Ejen AI terkemuka, kadar lulus tertinggi hanya 12% apabila berhadapan dengan pangkalan kod Aplikasi berjuta pengguna.

Apakah SWE-Bench Mobile?

SWE-Bench Mobile ialah penanda aras pembaikan kod untuk pembangunan aplikasi mudah alih. Ia mengandungi tugas pembaikan pepijat aplikasi mudah alih sebenar, yang memerlukan Ejen AI untuk:
- Memahami struktur kod aplikasi mudah alih yang kompleks
- Mengenal pasti punca masalah
- Menjana kod pembaikan yang betul
- Memastikan pembaikan tidak memperkenalkan masalah baharu
Keputusan Ujian

Dalam ujian, prestasi beberapa Ejen AI arus perdana adalah seperti berikut:
- Prestasi Terbaik: Kadar lulus 12%
- Tahap Purata: Kadar lulus 5-8%
- Beberapa Model: Kadar lulus menghampiri 0%
Hasil ini jauh lebih rendah daripada prestasi pada SWE-Bench tradisional.
Mengapa begitu sukar?

Keanehan pangkalan kod aplikasi mudah alih membawa cabaran tambahan:
- Penyesuaian Berbilang Hujung: Perlu mempertimbangkan platform iOS dan Android pada masa yang sama
- Hubungan Kebergantungan yang Kompleks: Tahap gandingan antara modul aplikasi mudah alih adalah tinggi
- Kekangan Prestasi: Sumber peranti mudah alih adalah terhad, dan keperluan pengoptimuman kod adalah tinggi
- Logik UI yang Kompleks: Kod interaksi antara muka sukar untuk dianalisis secara statik
Perbandingan dengan Penanda Aras Tradisional

Berbanding dengan SWE-Bench tradisional, kesukaran versi Mobile telah meningkat dengan ketara:
- Saiz pangkalan kod lebih besar
- Logik perniagaan lebih kompleks
- Kes ujian lebih sukar untuk dilalui
- Keperluan tetingkap konteks lebih tinggi
Kepentingan Industri

Penanda aras ini mendedahkan batasan Ejen AI dalam senario industri sebenar. Walaupun AI telah membuat kemajuan pesat dalam penjanaan kod, masih ada jalan yang panjang untuk dilalui dalam mengendalikan projek sebenar yang besar dan kompleks.
Tinjauan Masa Depan

Pelancaran SWE-Bench Mobile menyediakan standard ukuran penting untuk pembangunan alat pengaturcaraan AI. Ia mengingatkan kita bahawa:
- Pengaturcaraan bantuan AI masih memerlukan pengawasan manusia
- Projek kompleks memerlukan pemahaman konteks yang lebih pintar
- Keupayaan model mempunyai ruang yang besar untuk penambahbaikan
Pautan Sumber

- Kertas kerja: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





