小红书 vydává SWE-Bench Mobile: Když AI Agent čelí kódové základně aplikace se stovkami milionů uživatelů, nejvyšší úspěšnost je pouze 12 %?

SWE-Bench Mobile

Tým 小红书 vydal nový benchmark SWE-Bench Mobile, speciálně navržený pro hodnocení výkonu AI Agentů na reálných kódových základnách mobilních aplikací. Výsledky jsou zarážející: i ty nejlepší AI Agenti mají při práci s kódovou základnou aplikace se stovkami milionů uživatelů úspěšnost pouze 12 %.

测试场景

Co je SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile je benchmark pro opravy kódu v oblasti vývoje mobilních aplikací. Obsahuje reálné úlohy oprav chyb v mobilních aplikacích a vyžaduje, aby AI Agent byl schopen:

Porozumět složité struktuře kódu mobilní aplikace
Lokalizovat kořen problému
Generovat správný opravný kód
Zajistit, aby oprava nezavedla nové problémy

Výsledky testování

测试结果

V testování dosáhlo několik hlavních AI Agentů následujících výsledků:

Nejlepší výkon: 12% úspěšnost
Průměrná úroveň: 5-8% úspěšnost
Některé modely: Blíží se 0% úspěšnosti

Tento výsledek je výrazně nižší než výkon na tradičním SWE-Bench.

Proč je to tak obtížné?

挑战分析

Specifika kódové základny mobilních aplikací přinášejí další výzvy:

Adaptace pro více platforem: Je třeba současně zohlednit platformy iOS a Android
Složité závislosti: Moduly mobilních aplikací jsou silně propojené
Omezení výkonu: Mobilní zařízení mají omezené zdroje, požadavky na optimalizaci kódu jsou vysoké
Složitá UI logika: Kód interakce s uživatelským rozhraním je obtížné staticky analyzovat

Srovnání s tradičními benchmarky

对比分析

Ve srovnání s tradičním SWE-Bench je obtížnost Mobile verze výrazně vyšší:

Větší rozsah kódové základny
Složitější obchodní logika
Obtížnější průchod testovacími případy
Vyšší požadavky na kontextové okno

Význam pro odvětví

行业意义

Tento benchmark odhaluje omezení AI Agentů v reálných průmyslových scénářích. Ačkoli AI dosahuje rychlého pokroku v generování kódu, při zpracování velkých a složitých reálných projektů je před ní ještě dlouhá cesta.

Budoucí výhledy

未来展望

Vydání SWE-Bench Mobile poskytuje důležité měřítko pro vývoj nástrojů pro programování s pomocí AI. Připomíná nám, že:

Programování s pomocí AI stále vyžaduje lidský dohled
Složité projekty vyžadují inteligentnější porozumění kontextu
Schopnosti modelů mají stále velký prostor pro zlepšení

Odkazy na zdroje

Článek: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

小红书 vydává SWE-Bench Mobile: Když AI Agent čelí kódové základně aplikace se stovkami milionů uživatelů, nejvyšší úspěšnost je pouze 12 %?

小红书 vydává SWE-Bench Mobile: Když AI Agent čelí kódové základně aplikace se stovkami milionů uživatelů, nejvyšší úspěšnost je pouze 12 %?

Co je SWE-Bench Mobile?

Výsledky testování

Proč je to tak obtížné?

Srovnání s tradičními benchmarky

Význam pro odvětví

Budoucí výhledy

Odkazy na zdroje

You Might Also Like

Claude Code Buddy úpravy: Jak získat lesklého legendárního mazlíčka

Obsidian uvedl Defuddle, který posunul Obsidian Web Clipper na novou úroveň

OpenAI náhle oznámila "třív jednom": sloučení prohlížeče + programování + ChatGPT, interně přiznává, že se v uplynulém roce mýlila

2026, už se nenuťte k "sebeovládání"! Udělejte těchto 8 drobností a zdraví přijde přirozeně

Ty matky, které se snaží zhubnout, ale nedaří se jim, se určitě potýkají s tímto problémem

AI Browser 24 hodinový stabilní provozní průvodce