A Xiaohongshu kiadta a SWE-Bench Mobile-t: Vajon az AI Agentek mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek?
A Xiaohongshu kiadta a SWE-Bench Mobile-t: Vajon az AI Agentek mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek?

A Xiaohongshu csapata kiadott egy új benchmarkot, a SWE-Bench Mobile-t, amely kifejezetten az AI Agentek valós mobilalkalmazás-kódkönyvtárakon nyújtott teljesítményének értékelésére szolgál. Az eredmények elgondolkodtatóak: még a legjobb AI Agentek is mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek.

Mi az a SWE-Bench Mobile?

A SWE-Bench Mobile egy kódjavítási benchmark mobilalkalmazás-fejlesztéshez. Valós mobilalkalmazás-hibajavítási feladatokat tartalmaz, amelyek megkövetelik az AI Agenttől, hogy:
- Megértse a komplex mobilalkalmazás-kódszerkezetet
- Meghatározza a probléma gyökerét
- Helyes javítókódot generáljon
- Biztosítsa, hogy a javítás ne okozzon új problémákat
Teszteredmények

A tesztelés során több mainstream AI Agent teljesítménye a következő volt:
- Legjobb teljesítmény: 12% sikerarány
- Átlagos szint: 5-8% sikerarány
- Egyes modellek: Közel 0% sikerarány
Ez az eredmény jóval alacsonyabb, mint a hagyományos SWE-Bench-en elért teljesítmény.
Miért ilyen nehéz?

A mobilalkalmazás-kódkönyvtárak sajátosságai további kihívásokat jelentenek:
- Többplatformos adaptáció: Egyidejűleg figyelembe kell venni az iOS és Android platformokat
- Komplex függőségek: A mobilalkalmazások moduljai közötti csatolás magas
- Teljesítménykorlátok: A mobileszközök erőforrásai korlátozottak, a kódoptimalizálás követelményei magasak
- Komplex UI logika: A felhasználói felület interakciós kódját nehéz statikusan elemezni
Összehasonlítás a hagyományos benchmarkokkal

A hagyományos SWE-Bench-hez képest a Mobile verzió nehézsége jelentősen megnőtt:
- Nagyobb a kódkönyvtár mérete
- Bonyolultabb az üzleti logika
- Nehezebb a tesztesetek teljesítése
- Magasabb a kontextusablak követelménye
Ipari jelentőség

Ez a benchmark feltárja az AI Agentek korlátait a valós ipari környezetben. Bár az AI gyorsan fejlődik a kódgenerálás terén, még hosszú út áll előtte a nagyméretű, komplex valós projektek kezelésében.
Jövőbeli kilátások

A SWE-Bench Mobile kiadása fontos mérceként szolgál az AI programozási eszközök fejlesztéséhez. Emlékeztet bennünket arra, hogy:
- Az AI-val támogatott programozás továbbra is emberi felügyeletet igényel
- A komplex projektek intelligensebb kontextusértelmezést igényelnek
- A modell képességeinek még van hova fejlődniük
Erőforrás linkek

- Tanulmány: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





