小红书 objavi SWE-Bench Mobile: Ko se AI Agent sooči s kodo aplikacije z milijardo uporabnikov, je najvišja stopnja uspešnosti le 12 %?
小红书 objavi SWE-Bench Mobile: Ko se AI Agent sooči s kodo aplikacije z milijardo uporabnikov, je najvišja stopnja uspešnosti le 12 %?

Ekipa 小红书 je objavila novo merilo uspešnosti SWE-Bench Mobile, posebej zasnovano za ocenjevanje delovanja AI Agentov na resničnih kodnih bazah mobilnih aplikacij. Rezultati so zaskrbljujoči: tudi najboljši AI Agenti imajo pri soočanju s kodno bazo aplikacije z milijardo uporabnikov najvišjo stopnjo uspešnosti le 12 %.

Kaj je SWE-Bench Mobile?

SWE-Bench Mobile je merilo uspešnosti za popravljanje kode, namenjeno razvoju mobilnih aplikacij. Vključuje resnične naloge popravljanja napak v mobilnih aplikacijah, ki od AI Agenta zahtevajo, da:
- Razume kompleksno strukturo kode mobilne aplikacije
- Določi izvor problema
- Ustvari pravilno popravljeno kodo
- Zagotovi, da popravek ne uvaja novih težav
Rezultati testiranja

V testiranju so se različni prevladujoči AI Agenti izkazali takole:
- Najboljša uspešnost: 12 % stopnja uspešnosti
- Povprečna raven: 5-8 % stopnja uspešnosti
- Nekateri modeli: skoraj 0 % stopnja uspešnosti
Ta rezultat je precej nižji od uspešnosti na tradicionalnem SWE-Bench.
Zakaj je tako težko?

Posebnosti kodne baze mobilnih aplikacij prinašajo dodatne izzive:
- Prilagoditev več platformam: Potrebno je sočasno upoštevati platformi iOS in Android
- Kompleksni odnosi odvisnosti: Visoka stopnja povezanosti med moduli mobilne aplikacije
- Omejitve zmogljivosti: Omejeni viri mobilnih naprav, visoke zahteve za optimizacijo kode
- Kompleksna logika uporabniškega vmesnika: Kodo interakcije vmesnika je težko statično analizirati
Primerjava s tradicionalnimi merili uspešnosti

V primerjavi s tradicionalnim SWE-Bench je težavnost mobilne različice znatno povečana:
- Večja velikost kodne baze
- Bolj kompleksna poslovna logika
- Težje prehodni testni primeri
- Višje zahteve glede kontekstnega okna
Pomen za industrijo

To merilo uspešnosti razkriva omejitve AI Agentov v resničnih industrijskih scenarijih. Čeprav AI hitro napreduje pri generiranju kode, je pri obravnavanju velikih, kompleksnih resničnih projektov še dolga pot.
Prihodnji obeti

Objava SWE-Bench Mobile ponuja pomembno merilo za razvoj orodij za programiranje s pomočjo umetne inteligence. Opominja nas, da:
- Programiranje s pomočjo umetne inteligence še vedno zahteva človeški nadzor
- Kompleksni projekti zahtevajo pametnejše razumevanje konteksta
- Zmogljivost modela ima še veliko prostora za izboljšave
Povezave do virov






