小红书 vydáva SWE-Bench Mobile: Keď AI Agent čelí kódovej základni aplikácie s desiatkami miliónov používateľov, najvyššia úspešnosť je len 12%?
小红书 vydáva SWE-Bench Mobile: Keď AI Agent čelí kódovej základni aplikácie s desiatkami miliónov používateľov, najvyššia úspešnosť je len 12%?

Tím 小红书 vydal nový benchmark SWE-Bench Mobile, špeciálne navrhnutý na vyhodnotenie výkonu AI Agentov na reálnych kódových základniach mobilných aplikácií. Výsledky sú podnetné: aj tie najlepšie AI Agenty majú pri práci s kódovou základňou aplikácie s desiatkami miliónov používateľov úspešnosť len 12%.

Čo je SWE-Bench Mobile?

SWE-Bench Mobile je benchmark pre opravu kódu určený pre vývoj mobilných aplikácií. Obsahuje reálne úlohy opravy chýb v mobilných aplikáciách a vyžaduje, aby AI Agent bol schopný:
- Pochopiť komplexnú štruktúru kódu mobilnej aplikácie
- Lokalizovať koreň problému
- Generovať správny opravný kód
- Zabezpečiť, aby oprava nezaviedla nové problémy
Výsledky testovania

Počas testovania dosiahli viaceré popredné AI Agenty nasledujúce výsledky:
- Najlepší výkon: 12% úspešnosť
- Priemerná úroveň: 5-8% úspešnosť
- Niektoré modely: Takmer 0% úspešnosť
Tento výsledok je oveľa nižší ako výkon na tradičnom SWE-Bench.
Prečo je to také ťažké?

Špecifiká kódovej základne mobilných aplikácií prinášajú ďalšie výzvy:
- Adaptácia pre viacero platforiem: Je potrebné zohľadniť platformy iOS aj Android
- Komplexné závislosti: Moduly mobilných aplikácií sú vysoko prepojené
- Obmedzenia výkonu: Mobilné zariadenia majú obmedzené zdroje, optimalizácia kódu je veľmi dôležitá
- Komplexná UI logika: Kód interakcie používateľského rozhrania je ťažké staticky analyzovať
Porovnanie s tradičnými benchmarkmi

V porovnaní s tradičným SWE-Bench je obtiažnosť Mobile verzie výrazne vyššia:
- Väčšia veľkosť kódovej základne
- Komplexnejšia obchodná logika
- Ťažšie prechod testovacími prípadmi
- Vyžaduje sa väčšie kontextové okno
Význam pre odvetvie

Tento benchmark odhaľuje obmedzenia AI Agentov v reálnych priemyselných scenároch. Hoci AI dosahuje rýchly pokrok v generovaní kódu, pri spracovaní rozsiahlych a komplexných reálnych projektov je pred nami ešte dlhá cesta.
Výhľad do budúcnosti

Vydanie SWE-Bench Mobile poskytuje dôležitý štandard pre meranie vývoja nástrojov na programovanie s AI. Pripomína nám to:
- Programovanie s pomocou AI stále vyžaduje ľudský dohľad
- Komplexné projekty vyžadujú inteligentnejšie pochopenie kontextu
- Schopnosti modelu majú ešte veľký priestor na zlepšenie
Odkazy na zdroje

- Príspevok: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





