小红书 vydává SWE-Bench Mobile: Když AI Agent čelí kódové základně aplikace se stovkami milionů uživatelů, nejvyšší úspěšnost je pouze 12 %?
小红书 vydává SWE-Bench Mobile: Když AI Agent čelí kódové základně aplikace se stovkami milionů uživatelů, nejvyšší úspěšnost je pouze 12 %?

Tým 小红书 vydal nový benchmark SWE-Bench Mobile, speciálně navržený pro hodnocení výkonu AI Agentů na reálných kódových základnách mobilních aplikací. Výsledky jsou zarážející: i ty nejlepší AI Agenti mají při práci s kódovou základnou aplikace se stovkami milionů uživatelů úspěšnost pouze 12 %.

Co je SWE-Bench Mobile?

SWE-Bench Mobile je benchmark pro opravy kódu v oblasti vývoje mobilních aplikací. Obsahuje reálné úlohy oprav chyb v mobilních aplikacích a vyžaduje, aby AI Agent byl schopen:
- Porozumět složité struktuře kódu mobilní aplikace
- Lokalizovat kořen problému
- Generovat správný opravný kód
- Zajistit, aby oprava nezavedla nové problémy
Výsledky testování

V testování dosáhlo několik hlavních AI Agentů následujících výsledků:
- Nejlepší výkon: 12% úspěšnost
- Průměrná úroveň: 5-8% úspěšnost
- Některé modely: Blíží se 0% úspěšnosti
Tento výsledek je výrazně nižší než výkon na tradičním SWE-Bench.
Proč je to tak obtížné?

Specifika kódové základny mobilních aplikací přinášejí další výzvy:
- Adaptace pro více platforem: Je třeba současně zohlednit platformy iOS a Android
- Složité závislosti: Moduly mobilních aplikací jsou silně propojené
- Omezení výkonu: Mobilní zařízení mají omezené zdroje, požadavky na optimalizaci kódu jsou vysoké
- Složitá UI logika: Kód interakce s uživatelským rozhraním je obtížné staticky analyzovat
Srovnání s tradičními benchmarky

Ve srovnání s tradičním SWE-Bench je obtížnost Mobile verze výrazně vyšší:
- Větší rozsah kódové základny
- Složitější obchodní logika
- Obtížnější průchod testovacími případy
- Vyšší požadavky na kontextové okno
Význam pro odvětví

Tento benchmark odhaluje omezení AI Agentů v reálných průmyslových scénářích. Ačkoli AI dosahuje rychlého pokroku v generování kódu, při zpracování velkých a složitých reálných projektů je před ní ještě dlouhá cesta.
Budoucí výhledy

Vydání SWE-Bench Mobile poskytuje důležité měřítko pro vývoj nástrojů pro programování s pomocí AI. Připomíná nám, že:
- Programování s pomocí AI stále vyžaduje lidský dohled
- Složité projekty vyžadují inteligentnější porozumění kontextu
- Schopnosti modelů mají stále velký prostor pro zlepšení
Odkazy na zdroje






