小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?
小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?

Zespół Xiaohongshu opublikował nowy test porównawczy SWE-Bench Mobile, specjalnie zaprojektowany do oceny wydajności AI Agent w rzeczywistych bazach kodu aplikacji mobilnych. Wyniki są dające do myślenia: nawet najlepsze AI Agent, w obliczu bazy kodu aplikacji z setkami milionów użytkowników, osiągają maksymalny wskaźnik sukcesu tylko na poziomie 12%.

什么是 SWE-Bench Mobile?
Czym jest SWE-Bench Mobile?

SWE-Bench Mobile to test porównawczy naprawy kodu dla rozwoju aplikacji mobilnych. Zawiera on rzeczywiste zadania naprawy błędów w aplikacjach mobilnych, wymagające od AI Agent:
- Zrozumienia złożonej struktury kodu aplikacji mobilnej
- Lokalizowania źródła problemu
- Generowania poprawnego kodu naprawczego
- Upewnienia się, że naprawa nie wprowadza nowych problemów
测试结果
Wyniki testów

W testach wydajność wielu głównych AI Agent była następująca:
- Najlepszy wynik: 12% wskaźnik sukcesu
- Średni poziom: 5-8% wskaźnik sukcesu
- Niektóre modele: Blisko 0% wskaźnik sukcesu
Ten wynik jest znacznie niższy niż wydajność na tradycyjnym SWE-Bench.
为什么这么难?
Dlaczego to takie trudne?

Specyfika baz kodu aplikacji mobilnych stwarza dodatkowe wyzwania:
- Adaptacja do wielu platform: Konieczność jednoczesnego uwzględniania platform iOS i Android
- Złożone zależności: Wysoki stopień sprzężenia między modułami aplikacji mobilnych
- Ograniczenia wydajności: Ograniczone zasoby urządzeń mobilnych, wysokie wymagania dotyczące optymalizacji kodu
- Złożona logika UI: Kod interakcji interfejsu użytkownika trudny do analizy statycznej
与传统基准的对比
Porównanie z tradycyjnymi testami porównawczymi

W porównaniu z tradycyjnym SWE-Bench, wersja Mobile ma znacznie wyższy poziom trudności:
- Większa skala bazy kodu
- Bardziej złożona logika biznesowa
- Trudniejsze do przejścia przypadki testowe
- Wyższe wymagania dotyczące okna kontekstowego
行业意义
Znaczenie dla branży

Ten test porównawczy ujawnia ograniczenia AI Agent w rzeczywistych scenariuszach przemysłowych. Chociaż AI robi szybkie postępy w generowaniu kodu, wciąż ma długą drogę do przebycia, jeśli chodzi o obsługę dużych, złożonych, rzeczywistych projektów.
未来展望
Przyszłe perspektywy

Wydanie SWE-Bench Mobile stanowi ważny punkt odniesienia dla rozwoju narzędzi programowania AI. Przypomina nam, że:
- Programowanie wspomagane przez AI nadal wymaga nadzoru człowieka
- Złożone projekty wymagają bardziej inteligentnego rozumienia kontekstu
- Możliwości modeli mają jeszcze duży potencjał do poprawy
资源链接
Linki do zasobów






