Xiaohongshu Merilis SWE-Bench Mobile: Ketika AI Agent Menghadapi Kode Basis Aplikasi dengan Ratusan Juta Pengguna, Tingkat Keberhasilan Tertinggi Hanya 12%?

SWE-Bench Mobile

Tim Xiaohongshu merilis tolok ukur baru SWE-Bench Mobile, yang secara khusus digunakan untuk mengevaluasi kinerja AI Agent pada kode basis aplikasi seluler yang nyata. Hasilnya menggugah pikiran: bahkan AI Agent terbaik pun, ketika menghadapi kode basis App dengan ratusan juta pengguna, tingkat keberhasilan tertinggi hanya 12%.

// 测试场景: Skenario Pengujian

Apa itu SWE-Bench Mobile?

// 基准介绍: Pengenalan Tolok Ukur

SWE-Bench Mobile adalah tolok ukur perbaikan kode yang ditujukan untuk pengembangan aplikasi seluler. Ini berisi tugas perbaikan Bug aplikasi seluler yang nyata, yang mengharuskan AI Agent untuk:

Memahami struktur kode aplikasi seluler yang kompleks
Menemukan akar masalah
Menghasilkan kode perbaikan yang benar
Memastikan perbaikan tidak menimbulkan masalah baru

Hasil Pengujian

// 测试结果: Hasil Pengujian

Dalam pengujian, kinerja beberapa AI Agent utama adalah sebagai berikut:

Kinerja Terbaik: Tingkat keberhasilan 12%
Tingkat Rata-rata: Tingkat keberhasilan 5-8%
Beberapa Model: Tingkat keberhasilan mendekati 0%

Hasil ini jauh lebih rendah daripada kinerja pada SWE-Bench tradisional.

Mengapa begitu sulit?

// 挑战分析: Analisis Tantangan

Kekhususan kode basis aplikasi seluler membawa tantangan tambahan:

Adaptasi Multi-Platform: Perlu mempertimbangkan platform iOS dan Android secara bersamaan
Hubungan Dependensi yang Kompleks: Tingkat ketergantungan antar modul aplikasi seluler tinggi
Batasan Kinerja: Sumber daya perangkat seluler terbatas, persyaratan optimasi kode tinggi
Logika UI Kompleks: Kode interaksi antarmuka sulit dianalisis secara statis

Perbandingan dengan Tolok Ukur Tradisional

// 对比分析: Analisis Perbandingan

Dibandingkan dengan SWE-Bench tradisional, kesulitan versi Mobile meningkat secara signifikan:

Skala kode basis lebih besar
Logika bisnis lebih kompleks
Kasus pengujian lebih sulit untuk dilalui
Persyaratan jendela konteks lebih tinggi

Signifikansi Industri

// 行业意义: Signifikansi Industri

Tolok ukur ini mengungkapkan keterbatasan AI Agent dalam skenario industri yang nyata. Meskipun AI telah membuat kemajuan pesat dalam pembuatan kode, masih ada jalan panjang yang harus ditempuh dalam menangani proyek nyata yang besar dan kompleks.

Prospek Masa Depan

// 未来展望: Prospek Masa Depan

Rilis SWE-Bench Mobile memberikan standar pengukuran penting untuk pengembangan alat pemrograman AI. Ini mengingatkan kita bahwa:

Pemrograman yang dibantu AI masih membutuhkan pengawasan manusia
Proyek kompleks membutuhkan pemahaman konteks yang lebih cerdas
Kemampuan model masih memiliki banyak ruang untuk ditingkatkan

Tautan Sumber Daya

// 资源: Sumber Daya

Makalah: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu Merilis SWE-Bench Mobile: Ketika AI Agent Menghadapi Kode Basis Aplikasi dengan Ratusan Juta Pengguna, Tingkat Keberhasilan Tertinggi Hanya 12%?

Xiaohongshu Merilis SWE-Bench Mobile: Ketika AI Agent Menghadapi Kode Basis Aplikasi dengan Ratusan Juta Pengguna, Tingkat Keberhasilan Tertinggi Hanya 12%?

Apa itu SWE-Bench Mobile?

Hasil Pengujian

Mengapa begitu sulit?

Perbandingan dengan Tolok Ukur Tradisional

Signifikansi Industri

Prospek Masa Depan

Tautan Sumber Daya

You Might Also Like

Panduan Modifikasi Claude Code Buddy: Cara Mendapatkan Hewan Peliharaan Legendaris Bersinar

Obsidian Meluncurkan Defuddle, Meningkatkan Obsidian Web Clipper ke Tingkat Baru

OpenAI Tiba-tiba Mengumumkan "Tiga dalam Satu": Penggabungan Browser + Pemrograman + ChatGPT, Mengakui Kesalahan Tahun Lalu

2026, Jangan Lagi Memaksa Diri untuk 'Disiplin'! Lakukan 8 Hal Kecil Ini, Kesehatan Akan Datang Secara Alami

Ibu-Ibu yang Berusaha Menurunkan Berat Badan tetapi Tidak Berhasil, Pasti Terjebak di Sini

Panduan Menjalankan AI Browser 24 Jam Secara Stabil