Xiaohongshu publikon SWE-Bench Mobile: Kur AI Agent përballet me një bazë kodi App me qindra miliona përdorues, shkalla më e lartë e suksesit është vetëm 12%?

SWE-Bench Mobile

Ekipi i Xiaohongshu publikoi një test të ri bazë SWE-Bench Mobile, i cili është krijuar posaçërisht për të vlerësuar performancën e AI Agent në bazat e kodeve të aplikacioneve reale mobile. Rezultatet janë tronditëse: edhe AI Agent më i mirë, kur përballet me një bazë kodi App me qindra miliona përdorues, ka një shkallë suksesi prej vetëm 12%.

Skenari i testimit

Çfarë është SWE-Bench Mobile?

Prezantimi i bazës

SWE-Bench Mobile është një test bazë për riparimin e kodit të zhvillimit të aplikacioneve mobile. Ai përmban detyra reale të riparimit të defekteve të aplikacioneve mobile, duke kërkuar që AI Agent të jetë në gjendje të:

Kuptojë strukturën komplekse të kodit të aplikacioneve mobile
Lokalizojë rrënjët e problemeve
Gjenerojë kodin e saktë të riparimit
Sigurojë që riparimi të mos shkaktojë probleme të reja

Rezultatet e testimit

Në test, performanca e disa AI Agent kryesorë është si më poshtë:

Performanca më e mirë: Shkalla e suksesit 12%
Niveli mesatar: Shkalla e suksesit 5-8%
Disa modele: Afër 0% shkallë suksesi

Ky rezultat është shumë më i ulët se performanca në SWE-Bench tradicionale.

Pse është kaq e vështirë?

Analiza e sfidave

Specifikat e bazës së kodit të aplikacioneve mobile sjellin sfida shtesë:

Përshtatja me shumë platforma: Nevoja për të marrë parasysh platformat iOS dhe Android në të njëjtën kohë
Marrëdhëniet komplekse të varësisë: Shkalla e lartë e bashkëveprimit midis moduleve të aplikacioneve mobile
Kufizimet e performancës: Burimet e kufizuara të pajisjeve mobile, kërkesa të larta për optimizimin e kodit
Logjika komplekse e UI: Kodi i ndërveprimit të ndërfaqes është i vështirë për t'u analizuar statikisht

Krahasimi me bazat tradicionale

Analiza krahasuese

Krahasuar me SWE-Bench tradicionale, vështirësia e versionit Mobile është rritur ndjeshëm:

Madhësia e bazës së kodit është më e madhe
Logjika e biznesit është më komplekse
Rastet e testimit janë më të vështira për t'u kaluar
Kërkesat e dritares së kontekstit janë më të larta

Rëndësia e industrisë

Ky test bazë zbulon kufizimet e AI Agent në skenarët realë industrialë. Megjithëse AI ka bërë përparime të shpejta në gjenerimin e kodit, ka ende një rrugë të gjatë për të bërë kur trajtohen projekte të mëdha dhe komplekse reale.

Perspektiva e ardhshme

Publikimi i SWE-Bench Mobile ofron një standard të rëndësishëm matës për zhvillimin e mjeteve të programimit AI. Na kujton se:

Programimi i asistuar nga AI ende kërkon mbikëqyrje njerëzore
Projektet komplekse kërkojnë një kuptim më inteligjent të kontekstit
Aftësia e modelit ka ende shumë hapësirë për përmirësim

Lidhje burimesh

Burimet

Punimi: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu publikon SWE-Bench Mobile: Kur AI Agent përballet me një bazë kodi App me qindra miliona përdorues, shkalla më e lartë e suksesit është vetëm 12%?

Xiaohongshu publikon SWE-Bench Mobile: Kur AI Agent përballet me një bazë kodi App me qindra miliona përdorues, shkalla më e lartë e suksesit është vetëm 12%?

Çfarë është SWE-Bench Mobile?

Rezultatet e testimit

Pse është kaq e vështirë?

Krahasimi me bazat tradicionale

Rëndësia e industrisë

Perspektiva e ardhshme

Lidhje burimesh

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian ka lançuar Defuddle, duke e çuar Obsidian Web Clipper në një nivel të ri

OpenAI papritur shpall "tre në një": shkrimi i shfletuesit + programimi + bashkimi i ChatGPT, brenda pranojnë se vitin e kaluar kanë bërë gabime

2026, mos e detyro veten "disiplinë"! Bëni këto 8 gjëra të vogla, shëndeti do të vijë natyrshëm

Mamat që përpiqen të humbin peshë dhe nuk arrijnë, patjetër që kanë rënë këtu

AI Browser 24-orësh Stabiliteti i Udhëzimeve