小红书 objavi SWE-Bench Mobile: Ko se AI Agent sooči s kodo aplikacije z milijardo uporabnikov, je najvišja stopnja uspešnosti le 12 %?

2/15/2026
2 min read

小红书 objavi SWE-Bench Mobile: Ko se AI Agent sooči s kodo aplikacije z milijardo uporabnikov, je najvišja stopnja uspešnosti le 12 %?

SWE-Bench Mobile

Ekipa 小红书 je objavila novo merilo uspešnosti SWE-Bench Mobile, posebej zasnovano za ocenjevanje delovanja AI Agentov na resničnih kodnih bazah mobilnih aplikacij. Rezultati so zaskrbljujoči: tudi najboljši AI Agenti imajo pri soočanju s kodno bazo aplikacije z milijardo uporabnikov najvišjo stopnjo uspešnosti le 12 %.

测试场景

Kaj je SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile je merilo uspešnosti za popravljanje kode, namenjeno razvoju mobilnih aplikacij. Vključuje resnične naloge popravljanja napak v mobilnih aplikacijah, ki od AI Agenta zahtevajo, da:

  • Razume kompleksno strukturo kode mobilne aplikacije
  • Določi izvor problema
  • Ustvari pravilno popravljeno kodo
  • Zagotovi, da popravek ne uvaja novih težav

Rezultati testiranja

测试结果

V testiranju so se različni prevladujoči AI Agenti izkazali takole:

  • Najboljša uspešnost: 12 % stopnja uspešnosti
  • Povprečna raven: 5-8 % stopnja uspešnosti
  • Nekateri modeli: skoraj 0 % stopnja uspešnosti

Ta rezultat je precej nižji od uspešnosti na tradicionalnem SWE-Bench.

Zakaj je tako težko?

挑战分析

Posebnosti kodne baze mobilnih aplikacij prinašajo dodatne izzive:

  • Prilagoditev več platformam: Potrebno je sočasno upoštevati platformi iOS in Android
  • Kompleksni odnosi odvisnosti: Visoka stopnja povezanosti med moduli mobilne aplikacije
  • Omejitve zmogljivosti: Omejeni viri mobilnih naprav, visoke zahteve za optimizacijo kode
  • Kompleksna logika uporabniškega vmesnika: Kodo interakcije vmesnika je težko statično analizirati

Primerjava s tradicionalnimi merili uspešnosti

对比分析

V primerjavi s tradicionalnim SWE-Bench je težavnost mobilne različice znatno povečana:

  • Večja velikost kodne baze
  • Bolj kompleksna poslovna logika
  • Težje prehodni testni primeri
  • Višje zahteve glede kontekstnega okna

Pomen za industrijo

行业意义

To merilo uspešnosti razkriva omejitve AI Agentov v resničnih industrijskih scenarijih. Čeprav AI hitro napreduje pri generiranju kode, je pri obravnavanju velikih, kompleksnih resničnih projektov še dolga pot.

Prihodnji obeti

未来展望

Objava SWE-Bench Mobile ponuja pomembno merilo za razvoj orodij za programiranje s pomočjo umetne inteligence. Opominja nas, da:

  • Programiranje s pomočjo umetne inteligence še vedno zahteva človeški nadzor
  • Kompleksni projekti zahtevajo pametnejše razumevanje konteksta
  • Zmogljivost modela ima še veliko prostora za izboljšave

Povezave do virov

资源

Published in Technology

You Might Also Like