Xiaohongshu släpper SWE-Bench Mobile: När AI-agenter möter kodbaser för appar med hundratals miljoner användare, är den högsta godkännandegraden bara 12 %?

SWE-Bench Mobile

Xiaohongshu-teamet har släppt ett nytt benchmark, SWE-Bench Mobile, specifikt för att utvärdera AI-agenters prestanda på riktiga mobilapplikationskodbaser. Resultaten är tankeväckande: även de bästa AI-agenterna har en högsta godkännandegrad på endast 12 % när de står inför kodbasen för en app med hundratals miljoner användare.

Testscenarier

Vad är SWE-Bench Mobile?

Benchmark-introduktion

SWE-Bench Mobile är ett benchmark för kodfixar specifikt för mobilapplikationsutveckling. Det innehåller riktiga buggfixuppgifter för mobilapplikationer, som kräver att AI-agenter kan:

Förstå komplexa kodstrukturer för mobilapplikationer
Lokalisera problemens rot
Generera korrekt fixkod
Säkerställa att fixen inte introducerar nya problem

Testresultat

I testerna presterade flera vanliga AI-agenter enligt följande:

Bästa prestanda: 12 % godkännandegrad
Genomsnittlig nivå: 5-8 % godkännandegrad
Vissa modeller: Nära 0 % godkännandegrad

Detta resultat är mycket lägre än prestandan på den traditionella SWE-Bench.

Varför är det så svårt?

Utmaningsanalys

De speciella egenskaperna hos mobilapplikationskodbaser medför ytterligare utmaningar:

Flera plattformar: Behöver ta hänsyn till både iOS- och Android-plattformar
Komplexa beroenden: Hög kopplingsgrad mellan moduler i mobilapplikationer
Prestandabegränsningar: Begränsade resurser på mobila enheter, höga krav på kodoptimering
Komplex UI-logik: Gränssnittsinteraktionskod är svår att statiskt analysera

Jämförelse med traditionella benchmarks

Jämförelseanalys

Jämfört med den traditionella SWE-Bench har Mobile-versionen en betydligt högre svårighetsgrad:

Större kodbasstorlek
Mer komplex affärslogik
Svårare att klara testfall
Högre krav på kontextfönster

Branschbetydelse

Detta benchmark avslöjar begränsningarna hos AI-agenter i verkliga industriella scenarier. Även om AI gör snabba framsteg inom kodgenerering, har den fortfarande en lång väg att gå när det gäller att hantera stora, komplexa verkliga projekt.

Framtidsutsikter

Släppet av SWE-Bench Mobile ger en viktig måttstock för utvecklingen av AI-programmeringsverktyg. Det påminner oss om att:

AI-assisterad programmering fortfarande kräver mänsklig övervakning
Komplexa projekt kräver mer intelligent kontextförståelse
Modellkapaciteten har fortfarande stor potential för förbättring

Resurslänkar

Resurser

Papper: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu släpper SWE-Bench Mobile: När AI-agenter möter kodbaser för appar med hundratals miljoner användare, är den högsta godkännandegraden bara 12 %?

Xiaohongshu släpper SWE-Bench Mobile: När AI-agenter möter kodbaser för appar med hundratals miljoner användare, är den högsta godkännandegraden bara 12 %?

Vad är SWE-Bench Mobile?

Testresultat

Varför är det så svårt?

Jämförelse med traditionella benchmarks

Branschbetydelse

Framtidsutsikter

Resurslänkar

You Might Also Like

Claude Code Buddy ändringsguide: Hur man får glänsande legendariska husdjur

Obsidian har lanserat Defuddle, som tar Obsidian Web Clipper till en ny höjd

OpenAI plötsligt tillkännager "tre-i-ett": webbläsare + programmering + ChatGPT sammanslagning, internt erkännande av felaktig väg det senaste året

2026, sluta pressa dig själv till 'självdisciplin'! Gör dessa 8 små saker, hälsan kommer naturligt

De mammor som kämpar för att gå ner i vikt men inte lyckas, faller definitivt här

AI Browser 24-timmars stabil driftguide