Xiaohongshu släpper SWE-Bench Mobile: När AI-agenter möter kodbaser för appar med hundratals miljoner användare, är den högsta godkännandegraden bara 12 %?

2/15/2026
2 min read

Xiaohongshu släpper SWE-Bench Mobile: När AI-agenter möter kodbaser för appar med hundratals miljoner användare, är den högsta godkännandegraden bara 12 %?

SWE-Bench Mobile

Xiaohongshu-teamet har släppt ett nytt benchmark, SWE-Bench Mobile, specifikt för att utvärdera AI-agenters prestanda på riktiga mobilapplikationskodbaser. Resultaten är tankeväckande: även de bästa AI-agenterna har en högsta godkännandegrad på endast 12 % när de står inför kodbasen för en app med hundratals miljoner användare.

Testscenarier

Vad är SWE-Bench Mobile?

Benchmark-introduktion

SWE-Bench Mobile är ett benchmark för kodfixar specifikt för mobilapplikationsutveckling. Det innehåller riktiga buggfixuppgifter för mobilapplikationer, som kräver att AI-agenter kan:

  • Förstå komplexa kodstrukturer för mobilapplikationer
  • Lokalisera problemens rot
  • Generera korrekt fixkod
  • Säkerställa att fixen inte introducerar nya problem

Testresultat

Testresultat

I testerna presterade flera vanliga AI-agenter enligt följande:

  • Bästa prestanda: 12 % godkännandegrad
  • Genomsnittlig nivå: 5-8 % godkännandegrad
  • Vissa modeller: Nära 0 % godkännandegrad

Detta resultat är mycket lägre än prestandan på den traditionella SWE-Bench.

Varför är det så svårt?

Utmaningsanalys

De speciella egenskaperna hos mobilapplikationskodbaser medför ytterligare utmaningar:

  • Flera plattformar: Behöver ta hänsyn till både iOS- och Android-plattformar
  • Komplexa beroenden: Hög kopplingsgrad mellan moduler i mobilapplikationer
  • Prestandabegränsningar: Begränsade resurser på mobila enheter, höga krav på kodoptimering
  • Komplex UI-logik: Gränssnittsinteraktionskod är svår att statiskt analysera

Jämförelse med traditionella benchmarks

Jämförelseanalys

Jämfört med den traditionella SWE-Bench har Mobile-versionen en betydligt högre svårighetsgrad:

  • Större kodbasstorlek
  • Mer komplex affärslogik
  • Svårare att klara testfall
  • Högre krav på kontextfönster

Branschbetydelse

Branschbetydelse

Detta benchmark avslöjar begränsningarna hos AI-agenter i verkliga industriella scenarier. Även om AI gör snabba framsteg inom kodgenerering, har den fortfarande en lång väg att gå när det gäller att hantera stora, komplexa verkliga projekt.

Framtidsutsikter

Framtidsutsikter

Släppet av SWE-Bench Mobile ger en viktig måttstock för utvecklingen av AI-programmeringsverktyg. Det påminner oss om att:

  • AI-assisterad programmering fortfarande kräver mänsklig övervakning
  • Komplexa projekt kräver mer intelligent kontextförståelse
  • Modellkapaciteten har fortfarande stor potential för förbättring

Resurslänkar

Resurser

Published in Technology

You Might Also Like