A Xiaohongshu kiadta a SWE-Bench Mobile-t: Vajon az AI Agentek mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek?

SWE-Bench Mobile

A Xiaohongshu csapata kiadott egy új benchmarkot, a SWE-Bench Mobile-t, amely kifejezetten az AI Agentek valós mobilalkalmazás-kódkönyvtárakon nyújtott teljesítményének értékelésére szolgál. Az eredmények elgondolkodtatóak: még a legjobb AI Agentek is mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek.

Tesztelési forgatókönyv

Mi az a SWE-Bench Mobile?

Benchmark bemutatása

A SWE-Bench Mobile egy kódjavítási benchmark mobilalkalmazás-fejlesztéshez. Valós mobilalkalmazás-hibajavítási feladatokat tartalmaz, amelyek megkövetelik az AI Agenttől, hogy:

Megértse a komplex mobilalkalmazás-kódszerkezetet
Meghatározza a probléma gyökerét
Helyes javítókódot generáljon
Biztosítsa, hogy a javítás ne okozzon új problémákat

Teszteredmények

A tesztelés során több mainstream AI Agent teljesítménye a következő volt:

Legjobb teljesítmény: 12% sikerarány
Átlagos szint: 5-8% sikerarány
Egyes modellek: Közel 0% sikerarány

Ez az eredmény jóval alacsonyabb, mint a hagyományos SWE-Bench-en elért teljesítmény.

Miért ilyen nehéz?

Kihívás elemzése

A mobilalkalmazás-kódkönyvtárak sajátosságai további kihívásokat jelentenek:

Többplatformos adaptáció: Egyidejűleg figyelembe kell venni az iOS és Android platformokat
Komplex függőségek: A mobilalkalmazások moduljai közötti csatolás magas
Teljesítménykorlátok: A mobileszközök erőforrásai korlátozottak, a kódoptimalizálás követelményei magasak
Komplex UI logika: A felhasználói felület interakciós kódját nehéz statikusan elemezni

Összehasonlítás a hagyományos benchmarkokkal

Összehasonlító elemzés

A hagyományos SWE-Bench-hez képest a Mobile verzió nehézsége jelentősen megnőtt:

Nagyobb a kódkönyvtár mérete
Bonyolultabb az üzleti logika
Nehezebb a tesztesetek teljesítése
Magasabb a kontextusablak követelménye

Ipari jelentőség

Ez a benchmark feltárja az AI Agentek korlátait a valós ipari környezetben. Bár az AI gyorsan fejlődik a kódgenerálás terén, még hosszú út áll előtte a nagyméretű, komplex valós projektek kezelésében.

Jövőbeli kilátások

A SWE-Bench Mobile kiadása fontos mérceként szolgál az AI programozási eszközök fejlesztéséhez. Emlékeztet bennünket arra, hogy:

Az AI-val támogatott programozás továbbra is emberi felügyeletet igényel
A komplex projektek intelligensebb kontextusértelmezést igényelnek
A modell képességeinek még van hova fejlődniük

Erőforrás linkek

Erőforrások

Tanulmány: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

A Xiaohongshu kiadta a SWE-Bench Mobile-t: Vajon az AI Agentek mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek?

A Xiaohongshu kiadta a SWE-Bench Mobile-t: Vajon az AI Agentek mindössze 12%-os sikerarányt érnek el, amikor egy több százmilliós felhasználói alkalmazás kódkönyvtárával szembesülnek?

Mi az a SWE-Bench Mobile?

Teszteredmények

Miért ilyen nehéz?

Összehasonlítás a hagyományos benchmarkokkal

Ipari jelentőség

Jövőbeli kilátások

Erőforrás linkek

You Might Also Like

Claude Code Buddy módosítási útmutató: Hogyan szerezd meg a fénylő legendás szörnyet

Obsidian bemutatta a Defuddle-t, amely új magasságokba emeli az Obsidian Web Clipper-t

OpenAI hirtelen bejelentette a "három az egyben"-t: böngésző + programozás + ChatGPT egyesítése, a belső körök elismerik, hogy az elmúlt évben rossz irányba haladtak

2026, ne kényszerítsd magad a 'fegyelemre'! Csináld meg ezt a 8 apróságot, és a egészség magától jön

Azok a mamák, akik keményen próbálnak fogyni, de nem sikerül, biztosan itt buktak el

AI Browser 24 órás stabil működési útmutató