A Xiaohongshu kiadta a SWE-Bench Mobile-t: Vajon az AI Agentek mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek?

2/15/2026
2 min read

A Xiaohongshu kiadta a SWE-Bench Mobile-t: Vajon az AI Agentek mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek?

SWE-Bench Mobile

A Xiaohongshu csapata kiadott egy új benchmarkot, a SWE-Bench Mobile-t, amely kifejezetten az AI Agentek valós mobilalkalmazás-kódkönyvtárakon nyújtott teljesítményének értékelésére szolgál. Az eredmények elgondolkodtatóak: még a legjobb AI Agentek is mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek.

Tesztelési forgatókönyv

Mi az a SWE-Bench Mobile?

Benchmark bemutatása

A SWE-Bench Mobile egy kódjavítási benchmark mobilalkalmazás-fejlesztéshez. Valós mobilalkalmazás-hibajavítási feladatokat tartalmaz, amelyek megkövetelik az AI Agenttől, hogy:

  • Megértse a komplex mobilalkalmazás-kódszerkezetet
  • Meghatározza a probléma gyökerét
  • Helyes javítókódot generáljon
  • Biztosítsa, hogy a javítás ne okozzon új problémákat

Teszteredmények

Teszteredmények

A tesztelés során több mainstream AI Agent teljesítménye a következő volt:

  • Legjobb teljesítmény: 12% sikerarány
  • Átlagos szint: 5-8% sikerarány
  • Egyes modellek: Közel 0% sikerarány

Ez az eredmény jóval alacsonyabb, mint a hagyományos SWE-Bench-en elért teljesítmény.

Miért ilyen nehéz?

Kihívás elemzése

A mobilalkalmazás-kódkönyvtárak sajátosságai további kihívásokat jelentenek:

  • Többplatformos adaptáció: Egyidejűleg figyelembe kell venni az iOS és Android platformokat
  • Komplex függőségek: A mobilalkalmazások moduljai közötti csatolás magas
  • Teljesítménykorlátok: A mobileszközök erőforrásai korlátozottak, a kódoptimalizálás követelményei magasak
  • Komplex UI logika: A felhasználói felület interakciós kódját nehéz statikusan elemezni

Összehasonlítás a hagyományos benchmarkokkal

Összehasonlító elemzés

A hagyományos SWE-Bench-hez képest a Mobile verzió nehézsége jelentősen megnőtt:

  • Nagyobb a kódkönyvtár mérete
  • Bonyolultabb az üzleti logika
  • Nehezebb a tesztesetek teljesítése
  • Magasabb a kontextusablak követelménye

Ipari jelentőség

Ipari jelentőség

Ez a benchmark feltárja az AI Agentek korlátait a valós ipari környezetben. Bár az AI gyorsan fejlődik a kódgenerálás terén, még hosszú út áll előtte a nagyméretű, komplex valós projektek kezelésében.

Jövőbeli kilátások

Jövőbeli kilátások

A SWE-Bench Mobile kiadása fontos mérceként szolgál az AI programozási eszközök fejlesztéséhez. Emlékeztet bennünket arra, hogy:

  • Az AI-val támogatott programozás továbbra is emberi felügyeletet igényel
  • A komplex projektek intelligensebb kontextusértelmezést igényelnek
  • A modell képességeinek még van hova fejlődniük

Erőforrás linkek

Erőforrások

Published in Technology

You Might Also Like