Xiaohongshu išleido SWE-Bench Mobile: ar AI Agent susidūrus su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis tik 12%?

2/15/2026
2 min read

Xiaohongshu išleido SWE-Bench Mobile: ar AI Agent susidūrus su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis tik 12%?

SWE-Bench Mobile

Xiaohongshu komanda išleido naują etaloną SWE-Bench Mobile, specialiai skirtą įvertinti AI Agent veikimą realiose mobiliųjų aplikacijų kodo bazėse. Rezultatai verčia susimąstyti: net ir geriausi AI Agent, susidūrę su milijoninės auditorijos App kodo baze, didžiausias sėkmės rodiklis yra tik 12%.

Testavimo scenarijus

Kas yra SWE-Bench Mobile?

Etalono pristatymas

SWE-Bench Mobile yra kodo taisymo etalonas, skirtas mobiliųjų aplikacijų kūrimui. Jame yra realių mobiliųjų aplikacijų klaidų taisymo užduočių, reikalaujančių, kad AI Agent galėtų:

  • Suprasti sudėtingą mobiliosios aplikacijos kodo struktūrą
  • Nustatyti problemos šaltinį
  • Generuoti teisingą taisymo kodą
  • Užtikrinti, kad taisymas nesukeltų naujų problemų

Testavimo rezultatai

Testavimo rezultatai

Testavimo metu kelių pagrindinių AI Agent veikimas buvo toks:

  • Geriausias veikimas: 12% sėkmės rodiklis
  • Vidutinis lygis: 5-8% sėkmės rodiklis
  • Kai kurie modeliai: beveik 0% sėkmės rodiklis

Šis rezultatas yra daug žemesnis nei tradiciniame SWE-Bench.

Kodėl taip sunku?

Iššūkių analizė

Mobiliųjų aplikacijų kodo bazės specifiškumas kelia papildomų iššūkių:

  • Prisitaikymas prie kelių platformų: reikia atsižvelgti į iOS ir Android platformas
  • Sudėtingi priklausomybių ryšiai: mobiliųjų aplikacijų modulių tarpusavio priklausomybė yra didelė
  • Veikimo apribojimai: mobiliųjų įrenginių ištekliai yra riboti, todėl keliami aukšti kodo optimizavimo reikalavimai
  • Sudėtinga UI logika: sąsajos sąveikos kodą sunku analizuoti statiškai

Palyginimas su tradiciniais etalonais

Palyginamoji analizė

Palyginti su tradiciniu SWE-Bench, Mobile versijos sudėtingumas žymiai padidėjo:

  • Kodo bazės apimtis didesnė
  • Verslo logika sudėtingesnė
  • Testavimo atvejus sunkiau įveikti
  • Konteksto lango reikalavimai didesni

Pramonės reikšmė

Pramonės reikšmė

Šis etalonas atskleidžia AI Agent apribojimus realiose pramonės scenose. Nors AI sparčiai tobulėja kodo generavimo srityje, tačiau apdorojant didelius, sudėtingus realius projektus, dar reikia nueiti ilgą kelią.

Ateities perspektyvos

Ateities perspektyvos

SWE-Bench Mobile išleidimas suteikia svarbų matavimo standartą AI programavimo įrankių plėtrai. Jis mums primena:

  • AI pagalbinis programavimas vis dar reikalauja žmogaus priežiūros
  • Sudėtingiems projektams reikia protingesnio konteksto supratimo
  • Modelio galimybės dar turi didelį tobulėjimo potencialą

Išteklių nuorodos

Ištekliai

Published in Technology

You Might Also Like