小红书 melancarkan SWE-Bench Mobile: Apabila Ejen AI Menghadapi Pangkalan Kod Aplikasi Berjuta Pengguna, Kadar Lulus Tertinggi Hanya 12%?

2/15/2026
2 min read

小红书 melancarkan SWE-Bench Mobile: Apabila Ejen AI Menghadapi Pangkalan Kod Aplikasi Berjuta Pengguna, Kadar Lulus Tertinggi Hanya 12%?

SWE-Bench Mobile

Pasukan 小红书 telah melancarkan penanda aras baharu SWE-Bench Mobile, khusus untuk menilai prestasi Ejen AI pada pangkalan kod aplikasi mudah alih sebenar. Hasilnya membimbangkan: Walaupun Ejen AI terkemuka, kadar lulus tertinggi hanya 12% apabila berhadapan dengan pangkalan kod Aplikasi berjuta pengguna.

测试场景

Apakah SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile ialah penanda aras pembaikan kod untuk pembangunan aplikasi mudah alih. Ia mengandungi tugas pembaikan pepijat aplikasi mudah alih sebenar, yang memerlukan Ejen AI untuk:

  • Memahami struktur kod aplikasi mudah alih yang kompleks
  • Mengenal pasti punca masalah
  • Menjana kod pembaikan yang betul
  • Memastikan pembaikan tidak memperkenalkan masalah baharu

Keputusan Ujian

测试结果

Dalam ujian, prestasi beberapa Ejen AI arus perdana adalah seperti berikut:

  • Prestasi Terbaik: Kadar lulus 12%
  • Tahap Purata: Kadar lulus 5-8%
  • Beberapa Model: Kadar lulus menghampiri 0%

Hasil ini jauh lebih rendah daripada prestasi pada SWE-Bench tradisional.

Mengapa begitu sukar?

挑战分析

Keanehan pangkalan kod aplikasi mudah alih membawa cabaran tambahan:

  • Penyesuaian Berbilang Hujung: Perlu mempertimbangkan platform iOS dan Android pada masa yang sama
  • Hubungan Kebergantungan yang Kompleks: Tahap gandingan antara modul aplikasi mudah alih adalah tinggi
  • Kekangan Prestasi: Sumber peranti mudah alih adalah terhad, dan keperluan pengoptimuman kod adalah tinggi
  • Logik UI yang Kompleks: Kod interaksi antara muka sukar untuk dianalisis secara statik

Perbandingan dengan Penanda Aras Tradisional

对比分析

Berbanding dengan SWE-Bench tradisional, kesukaran versi Mobile telah meningkat dengan ketara:

  • Saiz pangkalan kod lebih besar
  • Logik perniagaan lebih kompleks
  • Kes ujian lebih sukar untuk dilalui
  • Keperluan tetingkap konteks lebih tinggi

Kepentingan Industri

行业意义

Penanda aras ini mendedahkan batasan Ejen AI dalam senario industri sebenar. Walaupun AI telah membuat kemajuan pesat dalam penjanaan kod, masih ada jalan yang panjang untuk dilalui dalam mengendalikan projek sebenar yang besar dan kompleks.

Tinjauan Masa Depan

未来展望

Pelancaran SWE-Bench Mobile menyediakan standard ukuran penting untuk pembangunan alat pengaturcaraan AI. Ia mengingatkan kita bahawa:

  • Pengaturcaraan bantuan AI masih memerlukan pengawasan manusia
  • Projek kompleks memerlukan pemahaman konteks yang lebih pintar
  • Keupayaan model mempunyai ruang yang besar untuk penambahbaikan

Pautan Sumber

资源

Published in Technology

You Might Also Like