Xiaohongshu publikon SWE-Bench Mobile: Kur AI Agent përballet me një bazë kodi App me qindra miliona përdorues, shkalla më e lartë e suksesit është vetëm 12%?
Xiaohongshu publikon SWE-Bench Mobile: Kur AI Agent përballet me një bazë kodi App me qindra miliona përdorues, shkalla më e lartë e suksesit është vetëm 12%?

Ekipi i Xiaohongshu publikoi një test të ri bazë SWE-Bench Mobile, i cili është krijuar posaçërisht për të vlerësuar performancën e AI Agent në bazat e kodeve të aplikacioneve reale mobile. Rezultatet janë tronditëse: edhe AI Agent më i mirë, kur përballet me një bazë kodi App me qindra miliona përdorues, ka një shkallë suksesi prej vetëm 12%.

Çfarë është SWE-Bench Mobile?

SWE-Bench Mobile është një test bazë për riparimin e kodit të zhvillimit të aplikacioneve mobile. Ai përmban detyra reale të riparimit të defekteve të aplikacioneve mobile, duke kërkuar që AI Agent të jetë në gjendje të:
- Kuptojë strukturën komplekse të kodit të aplikacioneve mobile
- Lokalizojë rrënjët e problemeve
- Gjenerojë kodin e saktë të riparimit
- Sigurojë që riparimi të mos shkaktojë probleme të reja
Rezultatet e testimit

Në test, performanca e disa AI Agent kryesorë është si më poshtë:
- Performanca më e mirë: Shkalla e suksesit 12%
- Niveli mesatar: Shkalla e suksesit 5-8%
- Disa modele: Afër 0% shkallë suksesi
Ky rezultat është shumë më i ulët se performanca në SWE-Bench tradicionale.
Pse është kaq e vështirë?

Specifikat e bazës së kodit të aplikacioneve mobile sjellin sfida shtesë:
- Përshtatja me shumë platforma: Nevoja për të marrë parasysh platformat iOS dhe Android në të njëjtën kohë
- Marrëdhëniet komplekse të varësisë: Shkalla e lartë e bashkëveprimit midis moduleve të aplikacioneve mobile
- Kufizimet e performancës: Burimet e kufizuara të pajisjeve mobile, kërkesa të larta për optimizimin e kodit
- Logjika komplekse e UI: Kodi i ndërveprimit të ndërfaqes është i vështirë për t'u analizuar statikisht
Krahasimi me bazat tradicionale

Krahasuar me SWE-Bench tradicionale, vështirësia e versionit Mobile është rritur ndjeshëm:
- Madhësia e bazës së kodit është më e madhe
- Logjika e biznesit është më komplekse
- Rastet e testimit janë më të vështira për t'u kaluar
- Kërkesat e dritares së kontekstit janë më të larta
Rëndësia e industrisë

Ky test bazë zbulon kufizimet e AI Agent në skenarët realë industrialë. Megjithëse AI ka bërë përparime të shpejta në gjenerimin e kodit, ka ende një rrugë të gjatë për të bërë kur trajtohen projekte të mëdha dhe komplekse reale.
Perspektiva e ardhshme

Publikimi i SWE-Bench Mobile ofron një standard të rëndësishëm matës për zhvillimin e mjeteve të programimit AI. Na kujton se:
- Programimi i asistuar nga AI ende kërkon mbikëqyrje njerëzore
- Projektet komplekse kërkojnë një kuptim më inteligjent të kontekstit
- Aftësia e modelit ka ende shumë hapësirë për përmirësim
Lidhje burimesh






