小红书 vydáva SWE-Bench Mobile: Keď AI Agent čelí kódovej základni aplikácie s desiatkami miliónov používateľov, najvyššia úspešnosť je len 12%?

SWE-Bench Mobile

Tím 小红书 vydal nový benchmark SWE-Bench Mobile, špeciálne navrhnutý na vyhodnotenie výkonu AI Agentov na reálnych kódových základniach mobilných aplikácií. Výsledky sú podnetné: aj tie najlepšie AI Agenty majú pri práci s kódovou základňou aplikácie s desiatkami miliónov používateľov úspešnosť len 12%.

Testovacie scenáre

Čo je SWE-Bench Mobile?

Úvod do benchmarku

SWE-Bench Mobile je benchmark pre opravu kódu určený pre vývoj mobilných aplikácií. Obsahuje reálne úlohy opravy chýb v mobilných aplikáciách a vyžaduje, aby AI Agent bol schopný:

Pochopiť komplexnú štruktúru kódu mobilnej aplikácie
Lokalizovať koreň problému
Generovať správny opravný kód
Zabezpečiť, aby oprava nezaviedla nové problémy

Výsledky testovania

Počas testovania dosiahli viaceré popredné AI Agenty nasledujúce výsledky:

Najlepší výkon: 12% úspešnosť
Priemerná úroveň: 5-8% úspešnosť
Niektoré modely: Takmer 0% úspešnosť

Tento výsledok je oveľa nižší ako výkon na tradičnom SWE-Bench.

Prečo je to také ťažké?

Analýza výziev

Špecifiká kódovej základne mobilných aplikácií prinášajú ďalšie výzvy:

Adaptácia pre viacero platforiem: Je potrebné zohľadniť platformy iOS aj Android
Komplexné závislosti: Moduly mobilných aplikácií sú vysoko prepojené
Obmedzenia výkonu: Mobilné zariadenia majú obmedzené zdroje, optimalizácia kódu je veľmi dôležitá
Komplexná UI logika: Kód interakcie používateľského rozhrania je ťažké staticky analyzovať

Porovnanie s tradičnými benchmarkmi

Analýza porovnania

V porovnaní s tradičným SWE-Bench je obtiažnosť Mobile verzie výrazne vyššia:

Väčšia veľkosť kódovej základne
Komplexnejšia obchodná logika
Ťažšie prechod testovacími prípadmi
Vyžaduje sa väčšie kontextové okno

Význam pre odvetvie

Tento benchmark odhaľuje obmedzenia AI Agentov v reálnych priemyselných scenároch. Hoci AI dosahuje rýchly pokrok v generovaní kódu, pri spracovaní rozsiahlych a komplexných reálnych projektov je pred nami ešte dlhá cesta.

Výhľad do budúcnosti

Vydanie SWE-Bench Mobile poskytuje dôležitý štandard pre meranie vývoja nástrojov na programovanie s AI. Pripomína nám to:

Programovanie s pomocou AI stále vyžaduje ľudský dohľad
Komplexné projekty vyžadujú inteligentnejšie pochopenie kontextu
Schopnosti modelu majú ešte veľký priestor na zlepšenie

Odkazy na zdroje

Zdroje

Príspevok: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

小红书 vydáva SWE-Bench Mobile: Keď AI Agent čelí kódovej základni aplikácie s desiatkami miliónov používateľov, najvyššia úspešnosť je len 12%?

小红书 vydáva SWE-Bench Mobile: Keď AI Agent čelí kódovej základni aplikácie s desiatkami miliónov používateľov, najvyššia úspešnosť je len 12%?

Čo je SWE-Bench Mobile?

Výsledky testovania

Prečo je to také ťažké?

Porovnanie s tradičnými benchmarkmi

Význam pre odvetvie

Výhľad do budúcnosti

Odkazy na zdroje

You Might Also Like

Claude Code Buddy Úprava: Ako získať lesklého legendárneho domáceho maznáčika

Obsidian predstavil Defuddle, ktorý posunul Obsidian Web Clipper na novú úroveň

OpenAI náhle oznámila "trojv jednotě": sloučení prohlížeče + programování + ChatGPT, interně přiznává, že minulý rok šla špatnou cestou

2026, už sa viac nenúť "k disciplíne"! Urobte týchto 8 malých vecí a zdravie príde prirodzene

Tieto matky, ktoré sa snažia schudnúť, ale nedarí sa im, určite sa tu zasekli

AI Browser 24 hodinový stabilný prevádzkový sprievodca