小红书 melancarkan SWE-Bench Mobile: Apabila Ejen AI Menghadapi Pangkalan Kod Aplikasi Berjuta Pengguna, Kadar Lulus Tertinggi Hanya 12%?

SWE-Bench Mobile

Pasukan 小红书 telah melancarkan penanda aras baharu SWE-Bench Mobile, khusus untuk menilai prestasi Ejen AI pada pangkalan kod aplikasi mudah alih sebenar. Hasilnya membimbangkan: Walaupun Ejen AI terkemuka, kadar lulus tertinggi hanya 12% apabila berhadapan dengan pangkalan kod Aplikasi berjuta pengguna.

测试场景

Apakah SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile ialah penanda aras pembaikan kod untuk pembangunan aplikasi mudah alih. Ia mengandungi tugas pembaikan pepijat aplikasi mudah alih sebenar, yang memerlukan Ejen AI untuk:

Memahami struktur kod aplikasi mudah alih yang kompleks
Mengenal pasti punca masalah
Menjana kod pembaikan yang betul
Memastikan pembaikan tidak memperkenalkan masalah baharu

Keputusan Ujian

测试结果

Dalam ujian, prestasi beberapa Ejen AI arus perdana adalah seperti berikut:

Prestasi Terbaik: Kadar lulus 12%
Tahap Purata: Kadar lulus 5-8%
Beberapa Model: Kadar lulus menghampiri 0%

Hasil ini jauh lebih rendah daripada prestasi pada SWE-Bench tradisional.

Mengapa begitu sukar?

挑战分析

Keanehan pangkalan kod aplikasi mudah alih membawa cabaran tambahan:

Penyesuaian Berbilang Hujung: Perlu mempertimbangkan platform iOS dan Android pada masa yang sama
Hubungan Kebergantungan yang Kompleks: Tahap gandingan antara modul aplikasi mudah alih adalah tinggi
Kekangan Prestasi: Sumber peranti mudah alih adalah terhad, dan keperluan pengoptimuman kod adalah tinggi
Logik UI yang Kompleks: Kod interaksi antara muka sukar untuk dianalisis secara statik

Perbandingan dengan Penanda Aras Tradisional

对比分析

Berbanding dengan SWE-Bench tradisional, kesukaran versi Mobile telah meningkat dengan ketara:

Saiz pangkalan kod lebih besar
Logik perniagaan lebih kompleks
Kes ujian lebih sukar untuk dilalui
Keperluan tetingkap konteks lebih tinggi

Kepentingan Industri

行业意义

Penanda aras ini mendedahkan batasan Ejen AI dalam senario industri sebenar. Walaupun AI telah membuat kemajuan pesat dalam penjanaan kod, masih ada jalan yang panjang untuk dilalui dalam mengendalikan projek sebenar yang besar dan kompleks.

Tinjauan Masa Depan

未来展望

Pelancaran SWE-Bench Mobile menyediakan standard ukuran penting untuk pembangunan alat pengaturcaraan AI. Ia mengingatkan kita bahawa:

Pengaturcaraan bantuan AI masih memerlukan pengawasan manusia
Projek kompleks memerlukan pemahaman konteks yang lebih pintar
Keupayaan model mempunyai ruang yang besar untuk penambahbaikan

Pautan Sumber

Kertas kerja: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

小红书 melancarkan SWE-Bench Mobile: Apabila Ejen AI Menghadapi Pangkalan Kod Aplikasi Berjuta Pengguna, Kadar Lulus Tertinggi Hanya 12%?

小红书 melancarkan SWE-Bench Mobile: Apabila Ejen AI Menghadapi Pangkalan Kod Aplikasi Berjuta Pengguna, Kadar Lulus Tertinggi Hanya 12%?

Apakah SWE-Bench Mobile?

Keputusan Ujian

Mengapa begitu sukar?

Perbandingan dengan Penanda Aras Tradisional

Kepentingan Industri

Tinjauan Masa Depan

Pautan Sumber

You Might Also Like

Panduan Pengubahsuaian Claude Code Buddy: Cara Mendapatkan Haiwan Peliharaan Legenda Berkilau

Obsidian Melancarkan Defuddle, Meningkatkan Obsidian Web Clipper ke Tahap Baru

OpenAI Tiba-tiba Mengumumkan "Tiga dalam Satu": Penggabungan Pelayar + Pengaturcaraan + ChatGPT, Mengakui Kesilapan Tahun Lepas

2026, Jangan Paksa Diri Sendiri 'Disiplin'! Lakukan 8 Perkara Kecil Ini, Kesihatan Akan Datang Secara Semula Jadi

Ibu-ibu yang berusaha menurunkan berat badan tetapi tidak berhasil, pasti terjebak di sini

AI Browser 24小时稳定运行指南