小红书发布 SWE-Bench Mobile：当 AI Agent 面对亿级用户 App 代码库，最高通过率仅12%？

SWE-Bench Mobile

Zespół Xiaohongshu opublikował nowy test porównawczy SWE-Bench Mobile, specjalnie zaprojektowany do oceny wydajności AI Agent w rzeczywistych bazach kodu aplikacji mobilnych. Wyniki są dające do myślenia: nawet najlepsze AI Agent, w obliczu bazy kodu aplikacji z setkami milionów użytkowników, osiągają maksymalny wskaźnik sukcesu tylko na poziomie 12%.

测试场景

什么是 SWE-Bench Mobile？

Czym jest SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile to test porównawczy naprawy kodu dla rozwoju aplikacji mobilnych. Zawiera on rzeczywiste zadania naprawy błędów w aplikacjach mobilnych, wymagające od AI Agent:

Zrozumienia złożonej struktury kodu aplikacji mobilnej
Lokalizowania źródła problemu
Generowania poprawnego kodu naprawczego
Upewnienia się, że naprawa nie wprowadza nowych problemów

测试结果

Wyniki testów

测试结果

W testach wydajność wielu głównych AI Agent była następująca:

Najlepszy wynik: 12% wskaźnik sukcesu
Średni poziom: 5-8% wskaźnik sukcesu
Niektóre modele: Blisko 0% wskaźnik sukcesu

Ten wynik jest znacznie niższy niż wydajność na tradycyjnym SWE-Bench.

为什么这么难？

Dlaczego to takie trudne?

挑战分析

Specyfika baz kodu aplikacji mobilnych stwarza dodatkowe wyzwania:

Adaptacja do wielu platform: Konieczność jednoczesnego uwzględniania platform iOS i Android
Złożone zależności: Wysoki stopień sprzężenia między modułami aplikacji mobilnych
Ograniczenia wydajności: Ograniczone zasoby urządzeń mobilnych, wysokie wymagania dotyczące optymalizacji kodu
Złożona logika UI: Kod interakcji interfejsu użytkownika trudny do analizy statycznej

与传统基准的对比

Porównanie z tradycyjnymi testami porównawczymi

对比分析

W porównaniu z tradycyjnym SWE-Bench, wersja Mobile ma znacznie wyższy poziom trudności:

Większa skala bazy kodu
Bardziej złożona logika biznesowa
Trudniejsze do przejścia przypadki testowe
Wyższe wymagania dotyczące okna kontekstowego

行业意义

Znaczenie dla branży

行业意义

Ten test porównawczy ujawnia ograniczenia AI Agent w rzeczywistych scenariuszach przemysłowych. Chociaż AI robi szybkie postępy w generowaniu kodu, wciąż ma długą drogę do przebycia, jeśli chodzi o obsługę dużych, złożonych, rzeczywistych projektów.