Xiaohongshu lanserer SWE-Bench Mobile: Når AI-agenter møter kodebaser for apper med hundrevis av millioner brukere, er den høyeste suksessraten bare 12 %?

2/15/2026
2 min read

Xiaohongshu lanserer SWE-Bench Mobile: Når AI-agenter møter kodebaser for apper med hundrevis av millioner brukere, er den høyeste suksessraten bare 12 %?

SWE-Bench Mobile

Xiaohongshu-teamet har lansert en ny benchmark, SWE-Bench Mobile, spesielt for å evaluere ytelsen til AI-agenter på ekte kodebaser for mobilapper. Resultatene er tankevekkende: Selv de beste AI-agentene har en maksimal suksessrate på bare 12 % når de står overfor kodebasen til en app med hundrevis av millioner brukere.

Testscenario

Hva er SWE-Bench Mobile?

Benchmark-introduksjon

SWE-Bench Mobile er en benchmark for kodefiksing rettet mot utvikling av mobilapper. Den inneholder ekte feilrettingsoppgaver for mobilapper, som krever at AI-agenter kan:

  • Forstå komplekse kodestrukturer for mobilapper
  • Lokalisere problemets rot
  • Generere riktig fiksingskode
  • Sikre at fiksen ikke introduserer nye problemer

Testresultater

Testresultater

I testen var ytelsen til flere vanlige AI-agenter som følger:

  • Beste ytelse: 12 % suksessrate
  • Gjennomsnittlig nivå: 5-8 % suksessrate
  • Noen modeller: Nærmer seg 0 % suksessrate

Dette resultatet er langt lavere enn ytelsen på den tradisjonelle SWE-Bench.

Hvorfor er det så vanskelig?

Utfordringsanalyse

Det spesielle ved kodebaser for mobilapper gir ekstra utfordringer:

  • Multi-plattformtilpasning: Krever samtidig vurdering av iOS- og Android-plattformer
  • Komplekse avhengighetsforhold: Høy koblingsgrad mellom moduler i mobilapper
  • Ytelsesbegrensninger: Begrensede ressurser på mobile enheter, høye krav til kodeoptimalisering
  • Kompleks UI-logikk: Grensesnittinteraksjonskode er vanskelig å analysere statisk

Sammenligning med tradisjonelle benchmarks

Sammenligningsanalyse

Sammenlignet med den tradisjonelle SWE-Bench, er vanskelighetsgraden til Mobile-versjonen betydelig økt:

  • Større kodebasestørrelse
  • Mer kompleks forretningslogikk
  • Vanskeligere å bestå testtilfeller
  • Høyere krav til kontekstvindu

Betydning for bransjen

Betydning for bransjen

Denne benchmarken avslører begrensningene til AI-agenter i ekte industrielle scenarier. Selv om AI gjør raske fremskritt innen kodegenerering, er det fortsatt en lang vei å gå når det gjelder å håndtere store, komplekse, virkelige prosjekter.

Fremtidsutsikter

Fremtidsutsikter

Utgivelsen av SWE-Bench Mobile gir en viktig målestokk for utviklingen av AI-programmeringsverktøy. Det minner oss om at:

  • AI-assistert programmering fortsatt krever menneskelig tilsyn
  • Komplekse prosjekter krever mer intelligent kontekstforståelse
  • Modellkapasiteten har fortsatt stort forbedringspotensial

Ressurslenker

Ressurser

Published in Technology

You Might Also Like