小红书 vydává SWE-Bench Mobile: Když AI Agent čelí kódové základně aplikace se stovkami milionů uživatelů, nejvyšší úspěšnost je pouze 12 %?

2/15/2026
2 min read

小红书 vydává SWE-Bench Mobile: Když AI Agent čelí kódové základně aplikace se stovkami milionů uživatelů, nejvyšší úspěšnost je pouze 12 %?

SWE-Bench Mobile

Tým 小红书 vydal nový benchmark SWE-Bench Mobile, speciálně navržený pro hodnocení výkonu AI Agentů na reálných kódových základnách mobilních aplikací. Výsledky jsou zarážející: i ty nejlepší AI Agenti mají při práci s kódovou základnou aplikace se stovkami milionů uživatelů úspěšnost pouze 12 %.

测试场景

Co je SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile je benchmark pro opravy kódu v oblasti vývoje mobilních aplikací. Obsahuje reálné úlohy oprav chyb v mobilních aplikacích a vyžaduje, aby AI Agent byl schopen:

  • Porozumět složité struktuře kódu mobilní aplikace
  • Lokalizovat kořen problému
  • Generovat správný opravný kód
  • Zajistit, aby oprava nezavedla nové problémy

Výsledky testování

测试结果

V testování dosáhlo několik hlavních AI Agentů následujících výsledků:

  • Nejlepší výkon: 12% úspěšnost
  • Průměrná úroveň: 5-8% úspěšnost
  • Některé modely: Blíží se 0% úspěšnosti

Tento výsledek je výrazně nižší než výkon na tradičním SWE-Bench.

Proč je to tak obtížné?

挑战分析

Specifika kódové základny mobilních aplikací přinášejí další výzvy:

  • Adaptace pro více platforem: Je třeba současně zohlednit platformy iOS a Android
  • Složité závislosti: Moduly mobilních aplikací jsou silně propojené
  • Omezení výkonu: Mobilní zařízení mají omezené zdroje, požadavky na optimalizaci kódu jsou vysoké
  • Složitá UI logika: Kód interakce s uživatelským rozhraním je obtížné staticky analyzovat

Srovnání s tradičními benchmarky

对比分析

Ve srovnání s tradičním SWE-Bench je obtížnost Mobile verze výrazně vyšší:

  • Větší rozsah kódové základny
  • Složitější obchodní logika
  • Obtížnější průchod testovacími případy
  • Vyšší požadavky na kontextové okno

Význam pro odvětví

行业意义

Tento benchmark odhaluje omezení AI Agentů v reálných průmyslových scénářích. Ačkoli AI dosahuje rychlého pokroku v generování kódu, při zpracování velkých a složitých reálných projektů je před ní ještě dlouhá cesta.

Budoucí výhledy

未来展望

Vydání SWE-Bench Mobile poskytuje důležité měřítko pro vývoj nástrojů pro programování s pomocí AI. Připomíná nám, že:

  • Programování s pomocí AI stále vyžaduje lidský dohled
  • Složité projekty vyžadují inteligentnější porozumění kontextu
  • Schopnosti modelů mají stále velký prostor pro zlepšení

Odkazy na zdroje

资源

Published in Technology

You Might Also Like