Xiaohongshu išleido SWE-Bench Mobile: ar AI Agent susidūrus su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis tik 12%?
Xiaohongshu išleido SWE-Bench Mobile: ar AI Agent susidūrus su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis tik 12%?

Xiaohongshu komanda išleido naują etaloną SWE-Bench Mobile, specialiai skirtą įvertinti AI Agent veikimą realiose mobiliųjų aplikacijų kodo bazėse. Rezultatai verčia susimąstyti: net ir geriausi AI Agent, susidūrę su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis yra tik 12%.

Kas yra SWE-Bench Mobile?

SWE-Bench Mobile yra kodo taisymo etalonas, skirtas mobiliųjų aplikacijų kūrimui. Jame yra realių mobiliųjų aplikacijų klaidų taisymo užduočių, reikalaujančių, kad AI Agent galėtų:
- Suprasti sudėtingą mobiliosios aplikacijos kodo struktūrą
- Nustatyti problemos šaltinį
- Generuoti teisingą taisymo kodą
- Užtikrinti, kad taisymas nesukeltų naujų problemų
Testavimo rezultatai

Testavimo metu kelių pagrindinių AI Agent veikimas buvo toks:
- Geriausias veikimas: 12% sėkmės rodiklis
- Vidutinis lygis: 5-8% sėkmės rodiklis
- Kai kurie modeliai: beveik 0% sėkmės rodiklis
Šis rezultatas yra daug žemesnis nei tradiciniame SWE-Bench.
Kodėl taip sunku?

Mobiliųjų aplikacijų kodo bazės specifiškumas kelia papildomų iššūkių:
- Prisitaikymas prie kelių platformų: reikia atsižvelgti į iOS ir Android platformas
- Sudėtingi priklausomybių ryšiai: mobiliųjų aplikacijų modulių tarpusavio priklausomybė yra didelė
- Veikimo apribojimai: mobiliųjų įrenginių ištekliai yra riboti, todėl keliami aukšti kodo optimizavimo reikalavimai
- Sudėtinga UI logika: sąsajos sąveikos kodą sunku analizuoti statiškai
Palyginimas su tradiciniais etalonais

Palyginti su tradiciniu SWE-Bench, Mobile versijos sudėtingumas žymiai padidėjo:
- Kodo bazės apimtis didesnė
- Verslo logika sudėtingesnė
- Testavimo atvejus sunkiau įveikti
- Konteksto lango reikalavimai didesni
Pramonės reikšmė

Šis etalonas atskleidžia AI Agent apribojimus realiose pramonės scenose. Nors AI sparčiai tobulėja kodo generavimo srityje, tačiau apdorojant didelius, sudėtingus realius projektus, dar reikia nueiti ilgą kelią.
Ateities perspektyvos

SWE-Bench Mobile išleidimas suteikia svarbų matavimo standartą AI programavimo įrankių plėtrai. Jis mums primena:
- AI pagalbinis programavimas vis dar reikalauja žmogaus priežiūros
- Sudėtingiems projektams reikia protingesnio konteksto supratimo
- Modelio galimybės dar turi didelį tobulėjimo potencialą
Išteklių nuorodos

- Straipsnis: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





