Xiaohongshu avaldas SWE-Bench Mobile: kui AI Agent seisab silmitsi sadade miljonite kasutajate rakenduse koodibaasiga, on kõrgeim edukuse määr vaid 12%?

SWE-Bench Mobile

Xiaohongshu meeskond avaldas uue võrdlusaluse SWE-Bench Mobile, mis on spetsiaalselt loodud AI Agentide toimivuse hindamiseks reaalsetes mobiilirakenduste koodibaasides. Tulemused on mõtlemapanevad: isegi parimatel AI Agentidel on sadade miljonite kasutajate rakenduse koodibaasi ees kõrgeim edukuse määr vaid 12%.

Testimise stsenaarium

Mis on SWE-Bench Mobile?

Võrdlusaluse tutvustus

SWE-Bench Mobile on mobiilirakenduste arenduse koodiparanduse võrdlusalus. See sisaldab reaalseid mobiilirakenduste veaparanduse ülesandeid, mis nõuavad AI Agendilt:

Keeruliste mobiilirakenduste koodistruktuuride mõistmist
Probleemi juurpõhjuse leidmist
Õige paranduskoodi genereerimist
Tagamist, et parandus ei too kaasa uusi probleeme

Testimise tulemused

Testimisel oli mitmete peamiste AI Agentide toimivus järgmine:

Parim tulemus: 12% edukuse määr
Keskmine tase: 5-8% edukuse määr
Osa mudeleid: ligi 0% edukuse määr

See tulemus on tunduvalt madalam kui traditsioonilisel SWE-Benchil.

Miks see nii raske on?

Väljakutsete analüüs

Mobiilirakenduste koodibaasi eripära toob kaasa täiendavaid väljakutseid:

Mitme platvormi kohandamine: vaja on arvestada nii iOS kui ka Android platvormidega
Keerulised sõltuvused: mobiilirakenduste moodulite vaheline seotus on kõrge
Jõudluspiirangud: mobiilseadmete ressursid on piiratud, koodi optimeerimise nõuded on kõrged
Keeruline UI loogika: kasutajaliidese interaktsioonikoodi on raske staatiliselt analüüsida

Võrdlus traditsiooniliste võrdlusalustega

Võrdlusanalüüs

Võrreldes traditsioonilise SWE-Benchiga on Mobile versiooni raskusaste märkimisväärselt suurenenud:

Koodibaasi maht on suurem
Äriline loogika on keerulisem
Testjuhtumeid on raskem läbida
Kontekstiakna nõuded on kõrgemad

Tööstuse tähendus

See võrdlusalus paljastab AI Agentide piirangud reaalsetes tööstuslikes stsenaariumides. Kuigi AI on koodi genereerimisel teinud kiiret edusammu, on tal suurte ja keeruliste reaalsete projektide käsitlemisel veel pikk tee minna.

Tuleviku väljavaated

SWE-Bench Mobile'i avaldamine pakub AI programmeerimistööriistade arendamiseks olulise mõõdupuu. See tuletab meile meelde:

AI-ga toetatud programmeerimine vajab endiselt inimeste järelevalvet
Keerulised projektid vajavad intelligentsemat konteksti mõistmist
Mudeli võimetel on veel palju arenguruumi

Ressursilingid

Ressursid

Artikkel: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu avaldas SWE-Bench Mobile: kui AI Agent seisab silmitsi sadade miljonite kasutajate rakenduse koodibaasiga, on kõrgeim edukuse määr vaid 12%?

Xiaohongshu avaldas SWE-Bench Mobile: kui AI Agent seisab silmitsi sadade miljonite kasutajate rakenduse koodibaasiga, on kõrgeim edukuse määr vaid 12%?

Mis on SWE-Bench Mobile?

Testimise tulemused

Miks see nii raske on?

Võrdlus traditsiooniliste võrdlusalustega

Tööstuse tähendus

Tuleviku väljavaated

Ressursilingid

You Might Also Like

Claude Code Buddy muutmise juhend: Kuidas saada sädelevat legendaarset lemmiklooma

Obsidian tutvustas Defuddle'i, viies Obsidian Web Clipperi uuele tasemele

OpenAI üllatavalt kuulutas välja "kolme ühes": brauser + programmeerimine + ChatGPT ühinemine, siseinfo tunnistab, et eelmisel aastal tehti valeotsuseid

2026, ära sunni end "distsipliini"! Tee need 8 väikest asja, tervis tuleb loomulikult

Need emad, kes püüavad kaalust alla võtta, kuid ei saa seda teha, on kindlasti siin kinni jäänud

AI Brauser 24 tunni stabiilse töö juhend