Xiaohongshu avaldas SWE-Bench Mobile: kui AI Agent seisab silmitsi sadade miljonite kasutajate rakenduse koodibaasiga, on kõrgeim edukuse määr vaid 12%?

2/15/2026
2 min read

Xiaohongshu avaldas SWE-Bench Mobile: kui AI Agent seisab silmitsi sadade miljonite kasutajate rakenduse koodibaasiga, on kõrgeim edukuse määr vaid 12%?

SWE-Bench Mobile

Xiaohongshu meeskond avaldas uue võrdlusaluse SWE-Bench Mobile, mis on spetsiaalselt loodud AI Agentide toimivuse hindamiseks reaalsetes mobiilirakenduste koodibaasides. Tulemused on mõtlemapanevad: isegi parimatel AI Agentidel on sadade miljonite kasutajate rakenduse koodibaasi ees kõrgeim edukuse määr vaid 12%.

Testimise stsenaarium

Mis on SWE-Bench Mobile?

Võrdlusaluse tutvustus

SWE-Bench Mobile on mobiilirakenduste arenduse koodiparanduse võrdlusalus. See sisaldab reaalseid mobiilirakenduste veaparanduse ülesandeid, mis nõuavad AI Agendilt:

  • Keeruliste mobiilirakenduste koodistruktuuride mõistmist
  • Probleemi juurpõhjuse leidmist
  • Õige paranduskoodi genereerimist
  • Tagamist, et parandus ei too kaasa uusi probleeme

Testimise tulemused

Testimise tulemused

Testimisel oli mitmete peamiste AI Agentide toimivus järgmine:

  • Parim tulemus: 12% edukuse määr
  • Keskmine tase: 5-8% edukuse määr
  • Osa mudeleid: ligi 0% edukuse määr

See tulemus on tunduvalt madalam kui traditsioonilisel SWE-Benchil.

Miks see nii raske on?

Väljakutsete analüüs

Mobiilirakenduste koodibaasi eripära toob kaasa täiendavaid väljakutseid:

  • Mitme platvormi kohandamine: vaja on arvestada nii iOS kui ka Android platvormidega
  • Keerulised sõltuvused: mobiilirakenduste moodulite vaheline seotus on kõrge
  • Jõudluspiirangud: mobiilseadmete ressursid on piiratud, koodi optimeerimise nõuded on kõrged
  • Keeruline UI loogika: kasutajaliidese interaktsioonikoodi on raske staatiliselt analüüsida

Võrdlus traditsiooniliste võrdlusalustega

Võrdlusanalüüs

Võrreldes traditsioonilise SWE-Benchiga on Mobile versiooni raskusaste märkimisväärselt suurenenud:

  • Koodibaasi maht on suurem
  • Äriline loogika on keerulisem
  • Testjuhtumeid on raskem läbida
  • Kontekstiakna nõuded on kõrgemad

Tööstuse tähendus

Tööstuse tähendus

See võrdlusalus paljastab AI Agentide piirangud reaalsetes tööstuslikes stsenaariumides. Kuigi AI on koodi genereerimisel teinud kiiret edusammu, on tal suurte ja keeruliste reaalsete projektide käsitlemisel veel pikk tee minna.

Tuleviku väljavaated

Tuleviku väljavaated

SWE-Bench Mobile'i avaldamine pakub AI programmeerimistööriistade arendamiseks olulise mõõdupuu. See tuletab meile meelde:

  • AI-ga toetatud programmeerimine vajab endiselt inimeste järelevalvet
  • Keerulised projektid vajavad intelligentsemat konteksti mõistmist
  • Mudeli võimetel on veel palju arenguruumi

Ressursilingid

Ressursid

Published in Technology

You Might Also Like