小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?

2/15/2026
2 min read

小红书发布 SWE-Bench Mobile:当 AI Agent 面对亿级用户 App 代码库,最高通过率仅12%?

SWE-Bench Mobile

Zespół Xiaohongshu opublikował nowy test porównawczy SWE-Bench Mobile, specjalnie zaprojektowany do oceny wydajności AI Agent w rzeczywistych bazach kodu aplikacji mobilnych. Wyniki są dające do myślenia: nawet najlepsze AI Agent, w obliczu bazy kodu aplikacji z setkami milionów użytkowników, osiągają maksymalny wskaźnik sukcesu tylko na poziomie 12%.

测试场景

什么是 SWE-Bench Mobile?

Czym jest SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile to test porównawczy naprawy kodu dla rozwoju aplikacji mobilnych. Zawiera on rzeczywiste zadania naprawy błędów w aplikacjach mobilnych, wymagające od AI Agent:

  • Zrozumienia złożonej struktury kodu aplikacji mobilnej
  • Lokalizowania źródła problemu
  • Generowania poprawnego kodu naprawczego
  • Upewnienia się, że naprawa nie wprowadza nowych problemów

测试结果

Wyniki testów

测试结果

W testach wydajność wielu głównych AI Agent była następująca:

  • Najlepszy wynik: 12% wskaźnik sukcesu
  • Średni poziom: 5-8% wskaźnik sukcesu
  • Niektóre modele: Blisko 0% wskaźnik sukcesu

Ten wynik jest znacznie niższy niż wydajność na tradycyjnym SWE-Bench.

为什么这么难?

Dlaczego to takie trudne?

挑战分析

Specyfika baz kodu aplikacji mobilnych stwarza dodatkowe wyzwania:

  • Adaptacja do wielu platform: Konieczność jednoczesnego uwzględniania platform iOS i Android
  • Złożone zależności: Wysoki stopień sprzężenia między modułami aplikacji mobilnych
  • Ograniczenia wydajności: Ograniczone zasoby urządzeń mobilnych, wysokie wymagania dotyczące optymalizacji kodu
  • Złożona logika UI: Kod interakcji interfejsu użytkownika trudny do analizy statycznej

与传统基准的对比

Porównanie z tradycyjnymi testami porównawczymi

对比分析

W porównaniu z tradycyjnym SWE-Bench, wersja Mobile ma znacznie wyższy poziom trudności:

  • Większa skala bazy kodu
  • Bardziej złożona logika biznesowa
  • Trudniejsze do przejścia przypadki testowe
  • Wyższe wymagania dotyczące okna kontekstowego

行业意义

Znaczenie dla branży

行业意义

Ten test porównawczy ujawnia ograniczenia AI Agent w rzeczywistych scenariuszach przemysłowych. Chociaż AI robi szybkie postępy w generowaniu kodu, wciąż ma długą drogę do przebycia, jeśli chodzi o obsługę dużych, złożonych, rzeczywistych projektów.

未来展望

Przyszłe perspektywy

未来展望

Wydanie SWE-Bench Mobile stanowi ważny punkt odniesienia dla rozwoju narzędzi programowania AI. Przypomina nam, że:

  • Programowanie wspomagane przez AI nadal wymaga nadzoru człowieka
  • Złożone projekty wymagają bardziej inteligentnego rozumienia kontekstu
  • Możliwości modeli mają jeszcze duży potencjał do poprawy

资源链接

Linki do zasobów

资源

Published in Technology

You Might Also Like