Xiaohongshu julkaisi SWE-Bench Mobilen: Vain 12 %:n onnistumisprosentti, kun AI Agent kohtaa satojen miljoonien käyttäjien sovelluskoodikannan?

SWE-Bench Mobile

Xiaohongshun tiimi julkaisi uuden vertailuarvon SWE-Bench Mobile, joka on suunniteltu erityisesti arvioimaan AI Agenttien suorituskykyä todellisissa mobiilisovellusten koodikannoissa. Tulokset ovat ajatuksia herättäviä: jopa parhailla AI Agenteilla on vain 12 %:n onnistumisprosentti, kun ne kohtaavat satojen miljoonien käyttäjien sovelluksen koodikannan.

Testausympäristö

Mikä on SWE-Bench Mobile?

Vertailuarvon esittely

SWE-Bench Mobile on koodikorjausvertailuarvo mobiilisovellusten kehitykseen. Se sisältää todellisia mobiilisovellusten virheenkorjaustehtäviä, jotka vaativat AI Agentin kykyä:

Ymmärtää monimutkaisia mobiilisovellusten koodirakenteita
Paikantaa ongelmien juurisyyt
Tuottaa oikeaa korjauskoodia
Varmistaa, että korjaukset eivät aiheuta uusia ongelmia

Testitulokset

Testeissä useiden yleisten AI Agenttien suorituskyky oli seuraava:

Paras suorituskyky: 12 %:n onnistumisprosentti
Keskimääräinen taso: 5-8 %:n onnistumisprosentti
Osa malleista: Lähellä 0 %:n onnistumisprosenttia

Tämä tulos on paljon alhaisempi kuin perinteisessä SWE-Benchissä saavutettu suorituskyky.

Miksi se on niin vaikeaa?

Haasteanalyysi

Mobiilisovellusten koodikantojen erityispiirteet tuovat lisähaasteita:

Usean alustan tuki: iOS- ja Android-alustat on otettava huomioon samanaikaisesti
Monimutkaiset riippuvuussuhteet: Mobiilisovellusten moduulien välinen kytkeytyneisyys on korkea
Suorituskykyrajoitukset: Mobiililaitteiden resurssit ovat rajalliset, koodin optimointivaatimukset ovat korkeat
Monimutkainen UI-logiikka: Käyttöliittymän vuorovaikutuskoodia on vaikea analysoida staattisesti

Vertailu perinteisiin vertailuarvoihin

Vertailuanalyysi

Perinteiseen SWE-Benchiin verrattuna Mobile-version vaikeusaste on huomattavasti korkeampi:

Koodikannan koko on suurempi
Liiketoimintalogiikka on monimutkaisempaa
Testitapaukset ovat vaikeampia läpäistä
Konteksti-ikkunan vaatimukset ovat korkeammat

Alan merkitys

Tämä vertailuarvo paljastaa AI Agenttien rajoitukset todellisissa teollisuusympäristöissä. Vaikka tekoäly on edistynyt nopeasti koodin generoinnissa, sillä on vielä pitkä matka käsiteltävänä suuria ja monimutkaisia todellisia projekteja.

Tulevaisuuden näkymät

SWE-Bench Mobilen julkaisu tarjoaa tärkeän mittapuun tekoälypohjaisten ohjelmointityökalujen kehitykselle. Se muistuttaa meitä:

Tekoälyn avustama ohjelmointi vaatii edelleen ihmisen valvontaa
Monimutkaiset projektit vaativat älykkäämpää kontekstin ymmärtämistä
Mallien kyvyissä on vielä paljon parannettavaa

Resurssilinkit

Resurssit

Tutkimuspaperi: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu julkaisi SWE-Bench Mobilen: Vain 12 %:n onnistumisprosentti, kun AI Agent kohtaa satojen miljoonien käyttäjien sovelluskoodikannan?

Xiaohongshu julkaisi SWE-Bench Mobilen: Vain 12 %:n onnistumisprosentti, kun AI Agent kohtaa satojen miljoonien käyttäjien sovelluskoodikannan?

Mikä on SWE-Bench Mobile?

Testitulokset

Miksi se on niin vaikeaa?

Vertailu perinteisiin vertailuarvoihin

Alan merkitys

Tulevaisuuden näkymät

Resurssilinkit

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian julkaisi Defuddlen, joka vie Obsidian Web Clipperin uudelle tasolle

OpenAI yllättäen ilmoittaa "kolme yhdessä": selain + ohjelmointi + ChatGPT yhdistyvät, sisäisesti myönnetään, että viime vuosi meni pieleen

2026, älä pakota itseäsi 'itsekuriksi'! Tee nämä 8 pientä asiaa, terveys tulee luonnostaan

Ne äidit, jotka yrittävät laihtua mutta eivät onnistu, kompastuvat varmasti tähän

AI Browser 24小时稳定运行指南