Xiaohongshu Merilis SWE-Bench Mobile: Ketika AI Agent Menghadapi Kode Basis Aplikasi dengan Ratusan Juta Pengguna, Tingkat Keberhasilan Tertinggi Hanya 12%?

2/15/2026
3 min read

Xiaohongshu Merilis SWE-Bench Mobile: Ketika AI Agent Menghadapi Kode Basis Aplikasi dengan Ratusan Juta Pengguna, Tingkat Keberhasilan Tertinggi Hanya 12%?

SWE-Bench Mobile

Tim Xiaohongshu merilis tolok ukur baru SWE-Bench Mobile, yang secara khusus digunakan untuk mengevaluasi kinerja AI Agent pada kode basis aplikasi seluler yang nyata. Hasilnya menggugah pikiran: bahkan AI Agent terbaik pun, ketika menghadapi kode basis App dengan ratusan juta pengguna, tingkat keberhasilan tertinggi hanya 12%.

测试场景 // 测试场景: Skenario Pengujian

Apa itu SWE-Bench Mobile?

基准介绍 // 基准介绍: Pengenalan Tolok Ukur

SWE-Bench Mobile adalah tolok ukur perbaikan kode yang ditujukan untuk pengembangan aplikasi seluler. Ini berisi tugas perbaikan Bug aplikasi seluler yang nyata, yang mengharuskan AI Agent untuk:

  • Memahami struktur kode aplikasi seluler yang kompleks
  • Menemukan akar masalah
  • Menghasilkan kode perbaikan yang benar
  • Memastikan perbaikan tidak menimbulkan masalah baru

Hasil Pengujian

测试结果 // 测试结果: Hasil Pengujian

Dalam pengujian, kinerja beberapa AI Agent utama adalah sebagai berikut:

  • Kinerja Terbaik: Tingkat keberhasilan 12%
  • Tingkat Rata-rata: Tingkat keberhasilan 5-8%
  • Beberapa Model: Tingkat keberhasilan mendekati 0%

Hasil ini jauh lebih rendah daripada kinerja pada SWE-Bench tradisional.

Mengapa begitu sulit?

挑战分析 // 挑战分析: Analisis Tantangan

Kekhususan kode basis aplikasi seluler membawa tantangan tambahan:

  • Adaptasi Multi-Platform: Perlu mempertimbangkan platform iOS dan Android secara bersamaan
  • Hubungan Dependensi yang Kompleks: Tingkat ketergantungan antar modul aplikasi seluler tinggi
  • Batasan Kinerja: Sumber daya perangkat seluler terbatas, persyaratan optimasi kode tinggi
  • Logika UI Kompleks: Kode interaksi antarmuka sulit dianalisis secara statis

Perbandingan dengan Tolok Ukur Tradisional

对比分析 // 对比分析: Analisis Perbandingan

Dibandingkan dengan SWE-Bench tradisional, kesulitan versi Mobile meningkat secara signifikan:

  • Skala kode basis lebih besar
  • Logika bisnis lebih kompleks
  • Kasus pengujian lebih sulit untuk dilalui
  • Persyaratan jendela konteks lebih tinggi

Signifikansi Industri

行业意义 // 行业意义: Signifikansi Industri

Tolok ukur ini mengungkapkan keterbatasan AI Agent dalam skenario industri yang nyata. Meskipun AI telah membuat kemajuan pesat dalam pembuatan kode, masih ada jalan panjang yang harus ditempuh dalam menangani proyek nyata yang besar dan kompleks.

Prospek Masa Depan

未来展望 // 未来展望: Prospek Masa Depan

Rilis SWE-Bench Mobile memberikan standar pengukuran penting untuk pengembangan alat pemrograman AI. Ini mengingatkan kita bahwa:

  • Pemrograman yang dibantu AI masih membutuhkan pengawasan manusia
  • Proyek kompleks membutuhkan pemahaman konteks yang lebih cerdas
  • Kemampuan model masih memiliki banyak ruang untuk ditingkatkan

Tautan Sumber Daya

资源 // 资源: Sumber Daya

Published in Technology

You Might Also Like