Xiaohongshu julkaisi SWE-Bench Mobilen: Vain 12 %:n onnistumisprosentti, kun AI Agent kohtaa satojen miljoonien käyttäjien sovelluskoodikannan?

2/15/2026
2 min read

Xiaohongshu julkaisi SWE-Bench Mobilen: Vain 12 %:n onnistumisprosentti, kun AI Agent kohtaa satojen miljoonien käyttäjien sovelluskoodikannan?

SWE-Bench Mobile

Xiaohongshun tiimi julkaisi uuden vertailuarvon SWE-Bench Mobile, joka on suunniteltu erityisesti arvioimaan AI Agenttien suorituskykyä todellisissa mobiilisovellusten koodikannoissa. Tulokset ovat ajatuksia herättäviä: jopa parhailla AI Agenteilla on vain 12 %:n onnistumisprosentti, kun ne kohtaavat satojen miljoonien käyttäjien sovelluksen koodikannan.

Testausympäristö

Mikä on SWE-Bench Mobile?

Vertailuarvon esittely

SWE-Bench Mobile on koodikorjausvertailuarvo mobiilisovellusten kehitykseen. Se sisältää todellisia mobiilisovellusten virheenkorjaustehtäviä, jotka vaativat AI Agentin kykyä:

  • Ymmärtää monimutkaisia mobiilisovellusten koodirakenteita
  • Paikantaa ongelmien juurisyyt
  • Tuottaa oikeaa korjauskoodia
  • Varmistaa, että korjaukset eivät aiheuta uusia ongelmia

Testitulokset

Testitulokset

Testeissä useiden yleisten AI Agenttien suorituskyky oli seuraava:

  • Paras suorituskyky: 12 %:n onnistumisprosentti
  • Keskimääräinen taso: 5-8 %:n onnistumisprosentti
  • Osa malleista: Lähellä 0 %:n onnistumisprosenttia

Tämä tulos on paljon alhaisempi kuin perinteisessä SWE-Benchissä saavutettu suorituskyky.

Miksi se on niin vaikeaa?

Haasteanalyysi

Mobiilisovellusten koodikantojen erityispiirteet tuovat lisähaasteita:

  • Usean alustan tuki: iOS- ja Android-alustat on otettava huomioon samanaikaisesti
  • Monimutkaiset riippuvuussuhteet: Mobiilisovellusten moduulien välinen kytkeytyneisyys on korkea
  • Suorituskykyrajoitukset: Mobiililaitteiden resurssit ovat rajalliset, koodin optimointivaatimukset ovat korkeat
  • Monimutkainen UI-logiikka: Käyttöliittymän vuorovaikutuskoodia on vaikea analysoida staattisesti

Vertailu perinteisiin vertailuarvoihin

Vertailuanalyysi

Perinteiseen SWE-Benchiin verrattuna Mobile-version vaikeusaste on huomattavasti korkeampi:

  • Koodikannan koko on suurempi
  • Liiketoimintalogiikka on monimutkaisempaa
  • Testitapaukset ovat vaikeampia läpäistä
  • Konteksti-ikkunan vaatimukset ovat korkeammat

Alan merkitys

Alan merkitys

Tämä vertailuarvo paljastaa AI Agenttien rajoitukset todellisissa teollisuusympäristöissä. Vaikka tekoäly on edistynyt nopeasti koodin generoinnissa, sillä on vielä pitkä matka käsiteltävänä suuria ja monimutkaisia todellisia projekteja.

Tulevaisuuden näkymät

Tulevaisuuden näkymät

SWE-Bench Mobilen julkaisu tarjoaa tärkeän mittapuun tekoälypohjaisten ohjelmointityökalujen kehitykselle. Se muistuttaa meitä:

  • Tekoälyn avustama ohjelmointi vaatii edelleen ihmisen valvontaa
  • Monimutkaiset projektit vaativat älykkäämpää kontekstin ymmärtämistä
  • Mallien kyvyissä on vielä paljon parannettavaa

Resurssilinkit

Resurssit

Published in Technology

You Might Also Like