Xiaohongshu lanserer SWE-Bench Mobile: Når AI-agenter møter kodebaser for apper med hundrevis av millioner brukere, er den høyeste suksessraten bare 12 %?

SWE-Bench Mobile

Xiaohongshu-teamet har lansert en ny benchmark, SWE-Bench Mobile, spesielt for å evaluere ytelsen til AI-agenter på ekte kodebaser for mobilapper. Resultatene er tankevekkende: Selv de beste AI-agentene har en maksimal suksessrate på bare 12 % når de står overfor kodebasen til en app med hundrevis av millioner brukere.

Testscenario

Hva er SWE-Bench Mobile?

Benchmark-introduksjon

SWE-Bench Mobile er en benchmark for kodefiksing rettet mot utvikling av mobilapper. Den inneholder ekte feilrettingsoppgaver for mobilapper, som krever at AI-agenter kan:

Forstå komplekse kodestrukturer for mobilapper
Lokalisere problemets rot
Generere riktig fiksingskode
Sikre at fiksen ikke introduserer nye problemer

Testresultater

I testen var ytelsen til flere vanlige AI-agenter som følger:

Beste ytelse: 12 % suksessrate
Gjennomsnittlig nivå: 5-8 % suksessrate
Noen modeller: Nærmer seg 0 % suksessrate

Dette resultatet er langt lavere enn ytelsen på den tradisjonelle SWE-Bench.

Hvorfor er det så vanskelig?

Utfordringsanalyse

Det spesielle ved kodebaser for mobilapper gir ekstra utfordringer:

Multi-plattformtilpasning: Krever samtidig vurdering av iOS- og Android-plattformer
Komplekse avhengighetsforhold: Høy koblingsgrad mellom moduler i mobilapper
Ytelsesbegrensninger: Begrensede ressurser på mobile enheter, høye krav til kodeoptimalisering
Kompleks UI-logikk: Grensesnittinteraksjonskode er vanskelig å analysere statisk

Sammenligning med tradisjonelle benchmarks

Sammenligningsanalyse

Sammenlignet med den tradisjonelle SWE-Bench, er vanskelighetsgraden til Mobile-versjonen betydelig økt:

Større kodebasestørrelse
Mer kompleks forretningslogikk
Vanskeligere å bestå testtilfeller
Høyere krav til kontekstvindu

Betydning for bransjen

Denne benchmarken avslører begrensningene til AI-agenter i ekte industrielle scenarier. Selv om AI gjør raske fremskritt innen kodegenerering, er det fortsatt en lang vei å gå når det gjelder å håndtere store, komplekse, virkelige prosjekter.

Fremtidsutsikter

Utgivelsen av SWE-Bench Mobile gir en viktig målestokk for utviklingen av AI-programmeringsverktøy. Det minner oss om at:

AI-assistert programmering fortsatt krever menneskelig tilsyn
Komplekse prosjekter krever mer intelligent kontekstforståelse
Modellkapasiteten har fortsatt stort forbedringspotensial

Ressurslenker

Ressurser

Artikkel: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu lanserer SWE-Bench Mobile: Når AI-agenter møter kodebaser for apper med hundrevis av millioner brukere, er den høyeste suksessraten bare 12 %?

Xiaohongshu lanserer SWE-Bench Mobile: Når AI-agenter møter kodebaser for apper med hundrevis av millioner brukere, er den høyeste suksessraten bare 12 %?

Hva er SWE-Bench Mobile?

Testresultater

Hvorfor er det så vanskelig?

Sammenligning med tradisjonelle benchmarks

Betydning for bransjen

Fremtidsutsikter

Ressurslenker

You Might Also Like

Claude Code Buddy Modifikasjonsguide: Hvordan få glitrende legendariske kjæledyr

Obsidian har lansert Defuddle, og hevet Obsidian Web Clipper til nye høyder

OpenAI plutselig kunngjør "tre-i-ett": sammenslåing av nettleser + programmering + ChatGPT, internt innrømmer de at de har gått feil vei det siste året

2026, ikke tving deg selv til "selvdisiplin"! Gjør disse 8 små tingene, så kommer helsen naturlig

Mødre som sliter med å gå ned i vekt, er absolutt fanget her

AI Browser 24-timers stabil drift guide