小红书 objavi SWE-Bench Mobile: Ko se AI Agent sooči s kodo aplikacije z milijardo uporabnikov, je najvišja stopnja uspešnosti le 12 %?

SWE-Bench Mobile

Ekipa 小红书 je objavila novo merilo uspešnosti SWE-Bench Mobile, posebej zasnovano za ocenjevanje delovanja AI Agentov na resničnih kodnih bazah mobilnih aplikacij. Rezultati so zaskrbljujoči: tudi najboljši AI Agenti imajo pri soočanju s kodno bazo aplikacije z milijardo uporabnikov najvišjo stopnjo uspešnosti le 12 %.

测试场景

Kaj je SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile je merilo uspešnosti za popravljanje kode, namenjeno razvoju mobilnih aplikacij. Vključuje resnične naloge popravljanja napak v mobilnih aplikacijah, ki od AI Agenta zahtevajo, da:

Razume kompleksno strukturo kode mobilne aplikacije
Določi izvor problema
Ustvari pravilno popravljeno kodo
Zagotovi, da popravek ne uvaja novih težav

Rezultati testiranja

测试结果

V testiranju so se različni prevladujoči AI Agenti izkazali takole:

Najboljša uspešnost: 12 % stopnja uspešnosti
Povprečna raven: 5-8 % stopnja uspešnosti
Nekateri modeli: skoraj 0 % stopnja uspešnosti

Ta rezultat je precej nižji od uspešnosti na tradicionalnem SWE-Bench.

Zakaj je tako težko?

挑战分析

Posebnosti kodne baze mobilnih aplikacij prinašajo dodatne izzive:

Prilagoditev več platformam: Potrebno je sočasno upoštevati platformi iOS in Android
Kompleksni odnosi odvisnosti: Visoka stopnja povezanosti med moduli mobilne aplikacije
Omejitve zmogljivosti: Omejeni viri mobilnih naprav, visoke zahteve za optimizacijo kode
Kompleksna logika uporabniškega vmesnika: Kodo interakcije vmesnika je težko statično analizirati

Primerjava s tradicionalnimi merili uspešnosti

对比分析

V primerjavi s tradicionalnim SWE-Bench je težavnost mobilne različice znatno povečana:

Večja velikost kodne baze
Bolj kompleksna poslovna logika
Težje prehodni testni primeri
Višje zahteve glede kontekstnega okna

Pomen za industrijo

行业意义

To merilo uspešnosti razkriva omejitve AI Agentov v resničnih industrijskih scenarijih. Čeprav AI hitro napreduje pri generiranju kode, je pri obravnavanju velikih, kompleksnih resničnih projektov še dolga pot.

Prihodnji obeti

未来展望

Objava SWE-Bench Mobile ponuja pomembno merilo za razvoj orodij za programiranje s pomočjo umetne inteligence. Opominja nas, da:

Programiranje s pomočjo umetne inteligence še vedno zahteva človeški nadzor
Kompleksni projekti zahtevajo pametnejše razumevanje konteksta
Zmogljivost modela ima še veliko prostora za izboljšave

Povezave do virov

Članek: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

小红书 objavi SWE-Bench Mobile: Ko se AI Agent sooči s kodo aplikacije z milijardo uporabnikov, je najvišja stopnja uspešnosti le 12 %?

小红书 objavi SWE-Bench Mobile: Ko se AI Agent sooči s kodo aplikacije z milijardo uporabnikov, je najvišja stopnja uspešnosti le 12 %?

Kaj je SWE-Bench Mobile?

Rezultati testiranja

Zakaj je tako težko?

Primerjava s tradicionalnimi merili uspešnosti

Pomen za industrijo

Prihodnji obeti

Povezave do virov

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian je predstavil Defuddle, ki je Obsidian Web Clipper dvignil na novo raven

OpenAI nenadoma napoveduje "tri v enem": združitev brskalnika + programiranja + ChatGPT, notranje priznanje, da so v preteklem letu zgrešili pot

2026, ne silite se več v 'discipliniranost'! Poskrbite za teh 8 malenkosti, zdravje bo prišlo naravno

Tiste mame, ki se trudijo shujšati, a jim ne uspe, so zagotovo tukaj naletele na težave

AI Browser 24-urna stabilna delovna navodila