Xiaohongshu gefur út SWE-Bench Mobile: Þegar AI Agent stendur frammi fyrir kóðasafni forrits með hundruð milljóna notenda, er hæsta árangurshlutfallið aðeins 12%?

SWE-Bench Mobile

Hópurinn hjá Xiaohongshu hefur gefið út nýtt viðmið, SWE-Bench Mobile, sérstaklega hannað til að meta frammistöðu AI Agent á raunverulegum kóðasöfnum fyrir farsímaforrit. Niðurstöðurnar eru umhugsunarverðar: Jafnvel bestu AI Agent, þegar þeir standa frammi fyrir kóðasafni forrits með hundruð milljóna notenda, hafa aðeins 12% árangurshlutfall.

Prófunaratburðarás

Hvað er SWE-Bench Mobile?

Kynning á viðmiði

SWE-Bench Mobile er viðmið til að meta kóðaviðgerðir fyrir farsímaforritaþróun. Það inniheldur raunverulegar villuleiðréttingarverkefni fyrir farsímaforrit, sem krefjast þess að AI Agent geti:

Skilið flókna kóðabyggingu farsímaforrita
Staðsett rót vandans
Búið til réttan viðgerðarkóða
Tryggt að viðgerðin valdi ekki nýjum vandamálum

Prófunarniðurstöður

Í prófunum var frammistaða nokkurra almennra AI Agent sem hér segir:

Besta frammistaða: 12% árangurshlutfall
Meðaltal: 5-8% árangurshlutfall
Sum líkön: Nálægt 0% árangurshlutfalli

Þessi niðurstaða er mun lægri en frammistaðan á hefðbundnum SWE-Bench.

Af hverju er þetta svona erfitt?

Áskorunargreining

Sérstaða kóðasafna fyrir farsímaforrit skapar auka áskoranir:

Aðlögun fyrir mörg tæki: Þarf að huga að bæði iOS og Android kerfum
Flókin háðsvið: Mikil tengsl á milli eininga í farsímaforritum
Afköstatakmarkanir: Takmarkað úrræði í farsímum, miklar kröfur um kóðabestun
Flókin UI rökfræði: Erfitt að greina kóða fyrir notendaviðmót á kyrrstöðu hátt

Samanburður við hefðbundin viðmið

Samanburðargreining

Í samanburði við hefðbundna SWE-Bench er Mobile útgáfan mun erfiðari:

Stærra kóðasafn
Flóknari viðskiptarökfræði
Erfiðara að standast prófunartilvik
Hærri kröfur um samhengisglugga

Þýðing fyrir iðnaðinn

Þetta viðmið sýnir takmarkanir AI Agent í raunverulegum iðnaðaraðstæðum. Þrátt fyrir hraða framþróun AI í kóðagerð, er enn langt í land þegar kemur að því að takast á við stór og flókin raunveruleg verkefni.

Framtíðarhorfur

Útgáfa SWE-Bench Mobile veitir mikilvægan mælikvarða fyrir þróun AI forritunarverkfæra. Það minnir okkur á:

AI aðstoð við forritun þarf enn mannlegt eftirlit
Flókin verkefni þurfa betri skilning á samhengi
Mikið svigrúm er til að bæta getu líkana

Auðlindatenglar

Auðlindir

Ritgerð: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu gefur út SWE-Bench Mobile: Þegar AI Agent stendur frammi fyrir kóðasafni forrits með hundruð milljóna notenda, er hæsta árangurshlutfallið aðeins 12%?

Xiaohongshu gefur út SWE-Bench Mobile: Þegar AI Agent stendur frammi fyrir kóðasafni forrits með hundruð milljóna notenda, er hæsta árangurshlutfallið aðeins 12%?

Hvað er SWE-Bench Mobile?

Prófunarniðurstöður

Af hverju er þetta svona erfitt?

Samanburður við hefðbundin viðmið

Þýðing fyrir iðnaðinn

Framtíðarhorfur

Auðlindatenglar

You Might Also Like

Claude Code Buddy breytingarleiðbeiningar: Hvernig á að fá glitrandi goðsagnir dýr

Obsidian hefur gefið út Defuddle, sem lyftir Obsidian Web Clipper á nýjan hæð

OpenAI tilkynnti skyndilega "þrjú í eitt": Vafri + forritun + ChatGPT sameining, innanhúss viðurkenndu þau að hafa farið rangt að síðasta árið

2026, ekki lengur að þrýsta á sjálfan sig "sjálfsaga"! Gerðu þessar 8 litlu hluti, heilsa kemur náttúrulega

Mæðurnar sem reyna að léttast en ná ekki árangri, eru örugglega að lenda í þessu

AI Browser 24 tíma stöðugleika leiðbeiningar