Xiaohongshu izlaiž SWE-Bench Mobile: vai AI aģenta panākumu līmenis ir tikai 12%, saskaroties ar lietotnes koda bāzi ar simtiem miljonu lietotāju?

2/15/2026
2 min read

Xiaohongshu izlaiž SWE-Bench Mobile: vai AI aģenta panākumu līmenis ir tikai 12%, saskaroties ar lietotnes koda bāzi ar simtiem miljonu lietotāju?

SWE-Bench Mobile

Xiaohongshu komanda ir izlaidusi jaunu etalonu testu SWE-Bench Mobile, kas īpaši paredzēts, lai novērtētu AI aģenta veiktspēju reālās mobilās lietotnes koda bāzē. Rezultāti liek aizdomāties: pat labākajiem AI aģentiem, saskaroties ar lietotnes koda bāzi ar simtiem miljonu lietotāju, augstākais panākumu līmenis ir tikai 12%.

Testēšanas scenārijs

Kas ir SWE-Bench Mobile?

Etalona ievads

SWE-Bench Mobile ir koda labošanas etalons tests, kas paredzēts mobilo lietotņu izstrādei. Tas ietver reālus mobilo lietotņu kļūdu labošanas uzdevumus, kas prasa, lai AI aģents varētu:

  • Izprast sarežģītu mobilo lietotņu koda struktūru
  • Noteikt problēmu cēloņus
  • Ģenerēt pareizu labojuma kodu
  • Pārliecināties, ka labojums neievieš jaunas problēmas

Testēšanas rezultāti

Testēšanas rezultāti

Testēšanas laikā vairāku galveno AI aģentu veiktspēja bija šāda:

  • Labākā veiktspēja: 12% panākumu līmenis
  • Vidējais līmenis: 5-8% panākumu līmenis
  • Daži modeļi: gandrīz 0% panākumu līmenis

Šis rezultāts ir daudz zemāks nekā tradicionālajā SWE-Bench.

Kāpēc tas ir tik grūti?

Izaicinājumu analīze

Mobilo lietotņu koda bāzes īpatnības rada papildu izaicinājumus:

  • Vairāku platformu pielāgošana: vienlaikus jāņem vērā iOS un Android platformas
  • Sarežģītas atkarības: mobilo lietotņu moduļu savstarpējā saistība ir augsta
  • Veiktspējas ierobežojumi: mobilajām ierīcēm ir ierobežoti resursi, un koda optimizācijai ir augstas prasības
  • Sarežģīta UI loģika: saskarnes mijiedarbības kodu ir grūti analizēt statiski

Salīdzinājums ar tradicionālajiem etaloniem

Salīdzinājuma analīze

Salīdzinot ar tradicionālo SWE-Bench, Mobile versijas grūtības pakāpe ir ievērojami palielinājusies:

  • Koda bāzes apjoms ir lielāks
  • Biznesa loģika ir sarežģītāka
  • Testēšanas gadījumus ir grūtāk izturēt
  • Konteksta loga prasības ir augstākas

Nozares nozīme

Nozares nozīme

Šis etalons tests atklāj AI aģenta ierobežojumus reālos rūpnieciskos scenārijos. Lai gan AI ir strauji progresējis koda ģenerēšanas jomā, tam vēl ir tāls ceļš ejams, apstrādājot lielus, sarežģītus reālus projektus.

Nākotnes perspektīvas

Nākotnes perspektīvas

SWE-Bench Mobile izlaišana nodrošina svarīgu mērauklu AI programmēšanas rīku attīstībai. Tas mums atgādina:

  • AI atbalstītai programmēšanai joprojām ir nepieciešama cilvēku uzraudzība
  • Sarežģītiem projektiem ir nepieciešama viedāka konteksta izpratne
  • Modeļa iespējām ir vēl daudz vietas uzlabojumiem

Resursu saites

Resursi

Published in Technology

You Might Also Like