Xiaohongshu gefur út SWE-Bench Mobile: Þegar AI Agent stendur frammi fyrir kóðasafni forrits með hundruð milljóna notenda, er hæsta árangurshlutfallið aðeins 12%?

2/15/2026
2 min read

Xiaohongshu gefur út SWE-Bench Mobile: Þegar AI Agent stendur frammi fyrir kóðasafni forrits með hundruð milljóna notenda, er hæsta árangurshlutfallið aðeins 12%?

SWE-Bench Mobile

Hópurinn hjá Xiaohongshu hefur gefið út nýtt viðmið, SWE-Bench Mobile, sérstaklega hannað til að meta frammistöðu AI Agent á raunverulegum kóðasöfnum fyrir farsímaforrit. Niðurstöðurnar eru umhugsunarverðar: Jafnvel bestu AI Agent, þegar þeir standa frammi fyrir kóðasafni forrits með hundruð milljóna notenda, hafa aðeins 12% árangurshlutfall.

Prófunaratburðarás

Hvað er SWE-Bench Mobile?

Kynning á viðmiði

SWE-Bench Mobile er viðmið til að meta kóðaviðgerðir fyrir farsímaforritaþróun. Það inniheldur raunverulegar villuleiðréttingarverkefni fyrir farsímaforrit, sem krefjast þess að AI Agent geti:

  • Skilið flókna kóðabyggingu farsímaforrita
  • Staðsett rót vandans
  • Búið til réttan viðgerðarkóða
  • Tryggt að viðgerðin valdi ekki nýjum vandamálum

Prófunarniðurstöður

Prófunarniðurstöður

Í prófunum var frammistaða nokkurra almennra AI Agent sem hér segir:

  • Besta frammistaða: 12% árangurshlutfall
  • Meðaltal: 5-8% árangurshlutfall
  • Sum líkön: Nálægt 0% árangurshlutfalli

Þessi niðurstaða er mun lægri en frammistaðan á hefðbundnum SWE-Bench.

Af hverju er þetta svona erfitt?

Áskorunargreining

Sérstaða kóðasafna fyrir farsímaforrit skapar auka áskoranir:

  • Aðlögun fyrir mörg tæki: Þarf að huga að bæði iOS og Android kerfum
  • Flókin háðsvið: Mikil tengsl á milli eininga í farsímaforritum
  • Afköstatakmarkanir: Takmarkað úrræði í farsímum, miklar kröfur um kóðabestun
  • Flókin UI rökfræði: Erfitt að greina kóða fyrir notendaviðmót á kyrrstöðu hátt

Samanburður við hefðbundin viðmið

Samanburðargreining

Í samanburði við hefðbundna SWE-Bench er Mobile útgáfan mun erfiðari:

  • Stærra kóðasafn
  • Flóknari viðskiptarökfræði
  • Erfiðara að standast prófunartilvik
  • Hærri kröfur um samhengisglugga

Þýðing fyrir iðnaðinn

Þýðing fyrir iðnaðinn

Þetta viðmið sýnir takmarkanir AI Agent í raunverulegum iðnaðaraðstæðum. Þrátt fyrir hraða framþróun AI í kóðagerð, er enn langt í land þegar kemur að því að takast á við stór og flókin raunveruleg verkefni.

Framtíðarhorfur

Framtíðarhorfur

Útgáfa SWE-Bench Mobile veitir mikilvægan mælikvarða fyrir þróun AI forritunarverkfæra. Það minnir okkur á:

  • AI aðstoð við forritun þarf enn mannlegt eftirlit
  • Flókin verkefni þurfa betri skilning á samhengi
  • Mikið svigrúm er til að bæta getu líkana

Auðlindatenglar

Auðlindir

Published in Technology

You Might Also Like