小红书 vydáva SWE-Bench Mobile: Keď AI Agent čelí kódovej základni aplikácie s desiatkami miliónov používateľov, najvyššia úspešnosť je len 12%?

2/15/2026
2 min read

小红书 vydáva SWE-Bench Mobile: Keď AI Agent čelí kódovej základni aplikácie s desiatkami miliónov používateľov, najvyššia úspešnosť je len 12%?

SWE-Bench Mobile

Tím 小红书 vydal nový benchmark SWE-Bench Mobile, špeciálne navrhnutý na vyhodnotenie výkonu AI Agentov na reálnych kódových základniach mobilných aplikácií. Výsledky sú podnetné: aj tie najlepšie AI Agenty majú pri práci s kódovou základňou aplikácie s desiatkami miliónov používateľov úspešnosť len 12%.

Testovacie scenáre

Čo je SWE-Bench Mobile?

Úvod do benchmarku

SWE-Bench Mobile je benchmark pre opravu kódu určený pre vývoj mobilných aplikácií. Obsahuje reálne úlohy opravy chýb v mobilných aplikáciách a vyžaduje, aby AI Agent bol schopný:

  • Pochopiť komplexnú štruktúru kódu mobilnej aplikácie
  • Lokalizovať koreň problému
  • Generovať správny opravný kód
  • Zabezpečiť, aby oprava nezaviedla nové problémy

Výsledky testovania

Výsledky testovania

Počas testovania dosiahli viaceré popredné AI Agenty nasledujúce výsledky:

  • Najlepší výkon: 12% úspešnosť
  • Priemerná úroveň: 5-8% úspešnosť
  • Niektoré modely: Takmer 0% úspešnosť

Tento výsledok je oveľa nižší ako výkon na tradičnom SWE-Bench.

Prečo je to také ťažké?

Analýza výziev

Špecifiká kódovej základne mobilných aplikácií prinášajú ďalšie výzvy:

  • Adaptácia pre viacero platforiem: Je potrebné zohľadniť platformy iOS aj Android
  • Komplexné závislosti: Moduly mobilných aplikácií sú vysoko prepojené
  • Obmedzenia výkonu: Mobilné zariadenia majú obmedzené zdroje, optimalizácia kódu je veľmi dôležitá
  • Komplexná UI logika: Kód interakcie používateľského rozhrania je ťažké staticky analyzovať

Porovnanie s tradičnými benchmarkmi

Analýza porovnania

V porovnaní s tradičným SWE-Bench je obtiažnosť Mobile verzie výrazne vyššia:

  • Väčšia veľkosť kódovej základne
  • Komplexnejšia obchodná logika
  • Ťažšie prechod testovacími prípadmi
  • Vyžaduje sa väčšie kontextové okno

Význam pre odvetvie

Význam pre odvetvie

Tento benchmark odhaľuje obmedzenia AI Agentov v reálnych priemyselných scenároch. Hoci AI dosahuje rýchly pokrok v generovaní kódu, pri spracovaní rozsiahlych a komplexných reálnych projektov je pred nami ešte dlhá cesta.

Výhľad do budúcnosti

Výhľad do budúcnosti

Vydanie SWE-Bench Mobile poskytuje dôležitý štandard pre meranie vývoja nástrojov na programovanie s AI. Pripomína nám to:

  • Programovanie s pomocou AI stále vyžaduje ľudský dohľad
  • Komplexné projekty vyžadujú inteligentnejšie pochopenie kontextu
  • Schopnosti modelu majú ešte veľký priestor na zlepšenie

Odkazy na zdroje

Zdroje

Published in Technology

You Might Also Like