Xiaohongshu išleido SWE-Bench Mobile: ar AI Agent susidūrus su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis tik 12%?

SWE-Bench Mobile

Xiaohongshu komanda išleido naują etaloną SWE-Bench Mobile, specialiai skirtą įvertinti AI Agent veikimą realiose mobiliųjų aplikacijų kodo bazėse. Rezultatai verčia susimąstyti: net ir geriausi AI Agent, susidūrę su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis yra tik 12%.

Testavimo scenarijus

Kas yra SWE-Bench Mobile?

Etalono pristatymas

SWE-Bench Mobile yra kodo taisymo etalonas, skirtas mobiliųjų aplikacijų kūrimui. Jame yra realių mobiliųjų aplikacijų klaidų taisymo užduočių, reikalaujančių, kad AI Agent galėtų:

Suprasti sudėtingą mobiliosios aplikacijos kodo struktūrą
Nustatyti problemos šaltinį
Generuoti teisingą taisymo kodą
Užtikrinti, kad taisymas nesukeltų naujų problemų

Testavimo rezultatai

Testavimo metu kelių pagrindinių AI Agent veikimas buvo toks:

Geriausias veikimas: 12% sėkmės rodiklis
Vidutinis lygis: 5-8% sėkmės rodiklis
Kai kurie modeliai: beveik 0% sėkmės rodiklis

Šis rezultatas yra daug žemesnis nei tradiciniame SWE-Bench.

Kodėl taip sunku?

Iššūkių analizė

Mobiliųjų aplikacijų kodo bazės specifiškumas kelia papildomų iššūkių:

Prisitaikymas prie kelių platformų: reikia atsižvelgti į iOS ir Android platformas
Sudėtingi priklausomybių ryšiai: mobiliųjų aplikacijų modulių tarpusavio priklausomybė yra didelė
Veikimo apribojimai: mobiliųjų įrenginių ištekliai yra riboti, todėl keliami aukšti kodo optimizavimo reikalavimai
Sudėtinga UI logika: sąsajos sąveikos kodą sunku analizuoti statiškai

Palyginimas su tradiciniais etalonais

Palyginamoji analizė

Palyginti su tradiciniu SWE-Bench, Mobile versijos sudėtingumas žymiai padidėjo:

Kodo bazės apimtis didesnė
Verslo logika sudėtingesnė
Testavimo atvejus sunkiau įveikti
Konteksto lango reikalavimai didesni

Pramonės reikšmė

Šis etalonas atskleidžia AI Agent apribojimus realiose pramonės scenose. Nors AI sparčiai tobulėja kodo generavimo srityje, tačiau apdorojant didelius, sudėtingus realius projektus, dar reikia nueiti ilgą kelią.

Ateities perspektyvos

SWE-Bench Mobile išleidimas suteikia svarbų matavimo standartą AI programavimo įrankių plėtrai. Jis mums primena:

AI pagalbinis programavimas vis dar reikalauja žmogaus priežiūros
Sudėtingiems projektams reikia protingesnio konteksto supratimo
Modelio galimybės dar turi didelį tobulėjimo potencialą

Išteklių nuorodos

Ištekliai

Straipsnis: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu išleido SWE-Bench Mobile: ar AI Agent susidūrus su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis tik 12%?

Xiaohongshu išleido SWE-Bench Mobile: ar AI Agent susidūrus su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis tik 12%?

Kas yra SWE-Bench Mobile?

Testavimo rezultatai

Kodėl taip sunku?

Palyginimas su tradiciniais etalonais

Pramonės reikšmė

Ateities perspektyvos

Išteklių nuorodos

You Might Also Like

Claude Code Buddy modificavimo vadovas: kaip gauti blizgantį legendinį augintinį

Obsidian pristatė Defuddle, pakeldama Obsidian Web Clipper į naujas aukštumas

OpenAI staiga paskelbė "trijų viename": naršyklė + programavimas + ChatGPT sujungimas, viduje pripažinta, kad per pastaruosius metus buvo padaryta klaida

2026, nebe reikės priversti save "savarankiškai"! Pasirūpinkite šiomis 8 mažomis užduotimis, sveikata ateis natūraliai

Motinos, kurios stengiasi numesti svorio, bet nesugeba, tikrai klysta čia

AI Naršyklė 24 valandų stabilaus veikimo vadovas