Xiaohongshu julkaisi SWE-Bench Mobilen: Vain 12 %:n onnistumisprosentti, kun AI Agent kohtaa satojen miljoonien käyttäjien sovelluskoodikannan?
Xiaohongshu julkaisi SWE-Bench Mobilen: Vain 12 %:n onnistumisprosentti, kun AI Agent kohtaa satojen miljoonien käyttäjien sovelluskoodikannan?

Xiaohongshun tiimi julkaisi uuden vertailuarvon SWE-Bench Mobile, joka on suunniteltu erityisesti arvioimaan AI Agenttien suorituskykyä todellisissa mobiilisovellusten koodikannoissa. Tulokset ovat ajatuksia herättäviä: jopa parhailla AI Agenteilla on vain 12 %:n onnistumisprosentti, kun ne kohtaavat satojen miljoonien käyttäjien sovelluksen koodikannan.

Mikä on SWE-Bench Mobile?

SWE-Bench Mobile on koodikorjausvertailuarvo mobiilisovellusten kehitykseen. Se sisältää todellisia mobiilisovellusten virheenkorjaustehtäviä, jotka vaativat AI Agentin kykyä:
- Ymmärtää monimutkaisia mobiilisovellusten koodirakenteita
- Paikantaa ongelmien juurisyyt
- Tuottaa oikeaa korjauskoodia
- Varmistaa, että korjaukset eivät aiheuta uusia ongelmia
Testitulokset

Testeissä useiden yleisten AI Agenttien suorituskyky oli seuraava:
- Paras suorituskyky: 12 %:n onnistumisprosentti
- Keskimääräinen taso: 5-8 %:n onnistumisprosentti
- Osa malleista: Lähellä 0 %:n onnistumisprosenttia
Tämä tulos on paljon alhaisempi kuin perinteisessä SWE-Benchissä saavutettu suorituskyky.
Miksi se on niin vaikeaa?

Mobiilisovellusten koodikantojen erityispiirteet tuovat lisähaasteita:
- Usean alustan tuki: iOS- ja Android-alustat on otettava huomioon samanaikaisesti
- Monimutkaiset riippuvuussuhteet: Mobiilisovellusten moduulien välinen kytkeytyneisyys on korkea
- Suorituskykyrajoitukset: Mobiililaitteiden resurssit ovat rajalliset, koodin optimointivaatimukset ovat korkeat
- Monimutkainen UI-logiikka: Käyttöliittymän vuorovaikutuskoodia on vaikea analysoida staattisesti
Vertailu perinteisiin vertailuarvoihin

Perinteiseen SWE-Benchiin verrattuna Mobile-version vaikeusaste on huomattavasti korkeampi:
- Koodikannan koko on suurempi
- Liiketoimintalogiikka on monimutkaisempaa
- Testitapaukset ovat vaikeampia läpäistä
- Konteksti-ikkunan vaatimukset ovat korkeammat
Alan merkitys

Tämä vertailuarvo paljastaa AI Agenttien rajoitukset todellisissa teollisuusympäristöissä. Vaikka tekoäly on edistynyt nopeasti koodin generoinnissa, sillä on vielä pitkä matka käsiteltävänä suuria ja monimutkaisia todellisia projekteja.
Tulevaisuuden näkymät

SWE-Bench Mobilen julkaisu tarjoaa tärkeän mittapuun tekoälypohjaisten ohjelmointityökalujen kehitykselle. Se muistuttaa meitä:
- Tekoälyn avustama ohjelmointi vaatii edelleen ihmisen valvontaa
- Monimutkaiset projektit vaativat älykkäämpää kontekstin ymmärtämistä
- Mallien kyvyissä on vielä paljon parannettavaa
Resurssilinkit

- Tutkimuspaperi: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





