Xiaohongshu gefur út SWE-Bench Mobile: Þegar AI Agent stendur frammi fyrir kóðasafni forrits með hundruð milljóna notenda, er hæsta árangurshlutfallið aðeins 12%?
Xiaohongshu gefur út SWE-Bench Mobile: Þegar AI Agent stendur frammi fyrir kóðasafni forrits með hundruð milljóna notenda, er hæsta árangurshlutfallið aðeins 12%?

Hópurinn hjá Xiaohongshu hefur gefið út nýtt viðmið, SWE-Bench Mobile, sérstaklega hannað til að meta frammistöðu AI Agent á raunverulegum kóðasöfnum fyrir farsímaforrit. Niðurstöðurnar eru umhugsunarverðar: Jafnvel bestu AI Agent, þegar þeir standa frammi fyrir kóðasafni forrits með hundruð milljóna notenda, hafa aðeins 12% árangurshlutfall.

Hvað er SWE-Bench Mobile?

SWE-Bench Mobile er viðmið til að meta kóðaviðgerðir fyrir farsímaforritaþróun. Það inniheldur raunverulegar villuleiðréttingarverkefni fyrir farsímaforrit, sem krefjast þess að AI Agent geti:
- Skilið flókna kóðabyggingu farsímaforrita
- Staðsett rót vandans
- Búið til réttan viðgerðarkóða
- Tryggt að viðgerðin valdi ekki nýjum vandamálum
Prófunarniðurstöður

Í prófunum var frammistaða nokkurra almennra AI Agent sem hér segir:
- Besta frammistaða: 12% árangurshlutfall
- Meðaltal: 5-8% árangurshlutfall
- Sum líkön: Nálægt 0% árangurshlutfalli
Þessi niðurstaða er mun lægri en frammistaðan á hefðbundnum SWE-Bench.
Af hverju er þetta svona erfitt?

Sérstaða kóðasafna fyrir farsímaforrit skapar auka áskoranir:
- Aðlögun fyrir mörg tæki: Þarf að huga að bæði iOS og Android kerfum
- Flókin háðsvið: Mikil tengsl á milli eininga í farsímaforritum
- Afköstatakmarkanir: Takmarkað úrræði í farsímum, miklar kröfur um kóðabestun
- Flókin UI rökfræði: Erfitt að greina kóða fyrir notendaviðmót á kyrrstöðu hátt
Samanburður við hefðbundin viðmið

Í samanburði við hefðbundna SWE-Bench er Mobile útgáfan mun erfiðari:
- Stærra kóðasafn
- Flóknari viðskiptarökfræði
- Erfiðara að standast prófunartilvik
- Hærri kröfur um samhengisglugga
Þýðing fyrir iðnaðinn

Þetta viðmið sýnir takmarkanir AI Agent í raunverulegum iðnaðaraðstæðum. Þrátt fyrir hraða framþróun AI í kóðagerð, er enn langt í land þegar kemur að því að takast á við stór og flókin raunveruleg verkefni.
Framtíðarhorfur

Útgáfa SWE-Bench Mobile veitir mikilvægan mælikvarða fyrir þróun AI forritunarverkfæra. Það minnir okkur á:
- AI aðstoð við forritun þarf enn mannlegt eftirlit
- Flókin verkefni þurfa betri skilning á samhengi
- Mikið svigrúm er til að bæta getu líkana
Auðlindatenglar






