Xiaohongshu avaldas SWE-Bench Mobile: kui AI Agent seisab silmitsi sadade miljonite kasutajate rakenduse koodibaasiga, on kõrgeim edukuse määr vaid 12%?
Xiaohongshu avaldas SWE-Bench Mobile: kui AI Agent seisab silmitsi sadade miljonite kasutajate rakenduse koodibaasiga, on kõrgeim edukuse määr vaid 12%?

Xiaohongshu meeskond avaldas uue võrdlusaluse SWE-Bench Mobile, mis on spetsiaalselt loodud AI Agentide toimivuse hindamiseks reaalsetes mobiilirakenduste koodibaasides. Tulemused on mõtlemapanevad: isegi parimatel AI Agentidel on sadade miljonite kasutajate rakenduse koodibaasi ees kõrgeim edukuse määr vaid 12%.

Mis on SWE-Bench Mobile?

SWE-Bench Mobile on mobiilirakenduste arenduse koodiparanduse võrdlusalus. See sisaldab reaalseid mobiilirakenduste veaparanduse ülesandeid, mis nõuavad AI Agendilt:
- Keeruliste mobiilirakenduste koodistruktuuride mõistmist
- Probleemi juurpõhjuse leidmist
- Õige paranduskoodi genereerimist
- Tagamist, et parandus ei too kaasa uusi probleeme
Testimise tulemused

Testimisel oli mitmete peamiste AI Agentide toimivus järgmine:
- Parim tulemus: 12% edukuse määr
- Keskmine tase: 5-8% edukuse määr
- Osa mudeleid: ligi 0% edukuse määr
See tulemus on tunduvalt madalam kui traditsioonilisel SWE-Benchil.
Miks see nii raske on?

Mobiilirakenduste koodibaasi eripära toob kaasa täiendavaid väljakutseid:
- Mitme platvormi kohandamine: vaja on arvestada nii iOS kui ka Android platvormidega
- Keerulised sõltuvused: mobiilirakenduste moodulite vaheline seotus on kõrge
- Jõudluspiirangud: mobiilseadmete ressursid on piiratud, koodi optimeerimise nõuded on kõrged
- Keeruline UI loogika: kasutajaliidese interaktsioonikoodi on raske staatiliselt analüüsida
Võrdlus traditsiooniliste võrdlusalustega

Võrreldes traditsioonilise SWE-Benchiga on Mobile versiooni raskusaste märkimisväärselt suurenenud:
- Koodibaasi maht on suurem
- Äriline loogika on keerulisem
- Testjuhtumeid on raskem läbida
- Kontekstiakna nõuded on kõrgemad
Tööstuse tähendus

See võrdlusalus paljastab AI Agentide piirangud reaalsetes tööstuslikes stsenaariumides. Kuigi AI on koodi genereerimisel teinud kiiret edusammu, on tal suurte ja keeruliste reaalsete projektide käsitlemisel veel pikk tee minna.
Tuleviku väljavaated

SWE-Bench Mobile'i avaldamine pakub AI programmeerimistööriistade arendamiseks olulise mõõdupuu. See tuletab meile meelde:
- AI-ga toetatud programmeerimine vajab endiselt inimeste järelevalvet
- Keerulised projektid vajavad intelligentsemat konteksti mõistmist
- Mudeli võimetel on veel palju arenguruumi
Ressursilingid

- Artikkel: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





