Xiaohongshu publikon SWE-Bench Mobile: Kur AI Agent përballet me një bazë kodi App me qindra miliona përdorues, shkalla më e lartë e suksesit është vetëm 12%?

2/15/2026
3 min read

Xiaohongshu publikon SWE-Bench Mobile: Kur AI Agent përballet me një bazë kodi App me qindra miliona përdorues, shkalla më e lartë e suksesit është vetëm 12%?

SWE-Bench Mobile

Ekipi i Xiaohongshu publikoi një test të ri bazë SWE-Bench Mobile, i cili është krijuar posaçërisht për të vlerësuar performancën e AI Agent në bazat e kodeve të aplikacioneve reale mobile. Rezultatet janë tronditëse: edhe AI Agent më i mirë, kur përballet me një bazë kodi App me qindra miliona përdorues, ka një shkallë suksesi prej vetëm 12%.

Skenari i testimit

Çfarë është SWE-Bench Mobile?

Prezantimi i bazës

SWE-Bench Mobile është një test bazë për riparimin e kodit të zhvillimit të aplikacioneve mobile. Ai përmban detyra reale të riparimit të defekteve të aplikacioneve mobile, duke kërkuar që AI Agent të jetë në gjendje të:

  • Kuptojë strukturën komplekse të kodit të aplikacioneve mobile
  • Lokalizojë rrënjët e problemeve
  • Gjenerojë kodin e saktë të riparimit
  • Sigurojë që riparimi të mos shkaktojë probleme të reja

Rezultatet e testimit

Rezultatet e testimit

Në test, performanca e disa AI Agent kryesorë është si më poshtë:

  • Performanca më e mirë: Shkalla e suksesit 12%
  • Niveli mesatar: Shkalla e suksesit 5-8%
  • Disa modele: Afër 0% shkallë suksesi

Ky rezultat është shumë më i ulët se performanca në SWE-Bench tradicionale.

Pse është kaq e vështirë?

Analiza e sfidave

Specifikat e bazës së kodit të aplikacioneve mobile sjellin sfida shtesë:

  • Përshtatja me shumë platforma: Nevoja për të marrë parasysh platformat iOS dhe Android në të njëjtën kohë
  • Marrëdhëniet komplekse të varësisë: Shkalla e lartë e bashkëveprimit midis moduleve të aplikacioneve mobile
  • Kufizimet e performancës: Burimet e kufizuara të pajisjeve mobile, kërkesa të larta për optimizimin e kodit
  • Logjika komplekse e UI: Kodi i ndërveprimit të ndërfaqes është i vështirë për t'u analizuar statikisht

Krahasimi me bazat tradicionale

Analiza krahasuese

Krahasuar me SWE-Bench tradicionale, vështirësia e versionit Mobile është rritur ndjeshëm:

  • Madhësia e bazës së kodit është më e madhe
  • Logjika e biznesit është më komplekse
  • Rastet e testimit janë më të vështira për t'u kaluar
  • Kërkesat e dritares së kontekstit janë më të larta

Rëndësia e industrisë

Rëndësia e industrisë

Ky test bazë zbulon kufizimet e AI Agent në skenarët realë industrialë. Megjithëse AI ka bërë përparime të shpejta në gjenerimin e kodit, ka ende një rrugë të gjatë për të bërë kur trajtohen projekte të mëdha dhe komplekse reale.

Perspektiva e ardhshme

Perspektiva e ardhshme

Publikimi i SWE-Bench Mobile ofron një standard të rëndësishëm matës për zhvillimin e mjeteve të programimit AI. Na kujton se:

  • Programimi i asistuar nga AI ende kërkon mbikëqyrje njerëzore
  • Projektet komplekse kërkojnë një kuptim më inteligjent të kontekstit
  • Aftësia e modelit ka ende shumë hapësirë për përmirësim

Lidhje burimesh

Burimet

Published in Technology

You Might Also Like