Xiaohongshu lansează SWE-Bench Mobile: Când AI Agent se confruntă cu o bază de cod a unei aplicații cu sute de milioane de utilizatori, rata maximă de succes este de doar 12%?

SWE-Bench Mobile

Echipa Xiaohongshu a lansat un nou test de referință, SWE-Bench Mobile, special conceput pentru a evalua performanța AI Agent pe baze de cod reale ale aplicațiilor mobile. Rezultatele sunt îngrijorătoare: chiar și cel mai bun AI Agent, atunci când se confruntă cu baza de cod a unei aplicații cu sute de milioane de utilizatori, are o rată maximă de succes de doar 12%.

Testează scenariul

Ce este SWE-Bench Mobile?

Introducere de referință

SWE-Bench Mobile este un test de referință pentru corectarea codului, destinat dezvoltării de aplicații mobile. Acesta conține sarcini reale de corectare a erorilor din aplicațiile mobile, cerând AI Agent să:

Înțeleagă structura complexă a codului aplicațiilor mobile
Localizeze cauza principală a problemelor
Genereze cod de corectare corect
Se asigure că corectarea nu introduce probleme noi

Rezultatele testelor

În timpul testării, performanța mai multor AI Agent principali a fost următoarea:

Cea mai bună performanță: rată de succes de 12%
Nivel mediu: rată de succes de 5-8%
Unele modele: rată de succes aproape de 0%

Acest rezultat este mult mai mic decât performanța pe SWE-Bench tradițional.

De ce este atât de dificil?

Analiza provocărilor

Specificul bazelor de cod ale aplicațiilor mobile aduce provocări suplimentare:

Adaptare multi-platformă: trebuie luate în considerare simultan platformele iOS și Android
Relații de dependență complexe: cuplarea între modulele aplicațiilor mobile este ridicată
Constrângeri de performanță: resursele dispozitivelor mobile sunt limitate, cerințele de optimizare a codului sunt ridicate
Logica UI complexă: codul de interacțiune a interfeței este dificil de analizat static

Comparație cu testele de referință tradiționale

Analiza comparativă

În comparație cu SWE-Bench tradițional, dificultatea versiunii Mobile este semnificativ mai mare:

Dimensiunea bazei de cod este mai mare
Logica de afaceri este mai complexă
Cazurile de testare sunt mai greu de trecut
Cerințele pentru fereastra de context sunt mai mari

Semnificația pentru industrie

Acest test de referință dezvăluie limitările AI Agent în scenarii industriale reale. Deși AI a făcut progrese rapide în generarea de cod, mai are un drum lung de parcurs în gestionarea proiectelor reale mari și complexe.

Perspective de viitor

Lansarea SWE-Bench Mobile oferă un standard important de măsurare pentru dezvoltarea instrumentelor de programare AI. Ne reamintește că:

Programarea asistată de AI necesită încă supraveghere umană
Proiectele complexe necesită o înțelegere mai inteligentă a contextului
Capacitatea modelului are un potențial mare de îmbunătățire

Link-uri către resurse

Resurse

Lucrare: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu lansează SWE-Bench Mobile: Când AI Agent se confruntă cu o bază de cod a unei aplicații cu sute de milioane de utilizatori, rata maximă de succes este de doar 12%?

Xiaohongshu lansează SWE-Bench Mobile: Când AI Agent se confruntă cu o bază de cod a unei aplicații cu sute de milioane de utilizatori, rata maximă de succes este de doar 12%?

Ce este SWE-Bench Mobile?

Rezultatele testelor

De ce este atât de dificil?

Comparație cu testele de referință tradiționale

Semnificația pentru industrie

Perspective de viitor

Link-uri către resurse

You Might Also Like

Claude Code Buddy Modificare Ghid: Cum să obții un animal de companie legendar strălucitor

Obsidian a lansat Defuddle, ducând Obsidian Web Clipper la un nou nivel

OpenAI a anunțat brusc "3 în 1": combinarea browser-ului + programare + ChatGPT, recunoscând că a greșit în ultimul an

2026, nu te mai forța să fii "disciplinat"! Fă aceste 8 lucruri mici și sănătatea va veni natural

Mamele care se străduiesc să slăbească, dar nu reușesc, cu siguranță au căzut aici

AI Browser 24小时稳定运行指南