Xiaohongshu izlaiž SWE-Bench Mobile: vai AI aģenta panākumu līmenis ir tikai 12%, saskaroties ar lietotnes koda bāzi ar simtiem miljonu lietotāju?

SWE-Bench Mobile

Xiaohongshu komanda ir izlaidusi jaunu etalonu testu SWE-Bench Mobile, kas īpaši paredzēts, lai novērtētu AI aģenta veiktspēju reālās mobilās lietotnes koda bāzē. Rezultāti liek aizdomāties: pat labākajiem AI aģentiem, saskaroties ar lietotnes koda bāzi ar simtiem miljonu lietotāju, augstākais panākumu līmenis ir tikai 12%.

Testēšanas scenārijs

Kas ir SWE-Bench Mobile?

Etalona ievads

SWE-Bench Mobile ir koda labošanas etalons tests, kas paredzēts mobilo lietotņu izstrādei. Tas ietver reālus mobilo lietotņu kļūdu labošanas uzdevumus, kas prasa, lai AI aģents varētu:

Izprast sarežģītu mobilo lietotņu koda struktūru
Noteikt problēmu cēloņus
Ģenerēt pareizu labojuma kodu
Pārliecināties, ka labojums neievieš jaunas problēmas

Testēšanas rezultāti

Testēšanas laikā vairāku galveno AI aģentu veiktspēja bija šāda:

Labākā veiktspēja: 12% panākumu līmenis
Vidējais līmenis: 5-8% panākumu līmenis
Daži modeļi: gandrīz 0% panākumu līmenis

Šis rezultāts ir daudz zemāks nekā tradicionālajā SWE-Bench.

Kāpēc tas ir tik grūti?

Izaicinājumu analīze

Mobilo lietotņu koda bāzes īpatnības rada papildu izaicinājumus:

Vairāku platformu pielāgošana: vienlaikus jāņem vērā iOS un Android platformas
Sarežģītas atkarības: mobilo lietotņu moduļu savstarpējā saistība ir augsta
Veiktspējas ierobežojumi: mobilajām ierīcēm ir ierobežoti resursi, un koda optimizācijai ir augstas prasības
Sarežģīta UI loģika: saskarnes mijiedarbības kodu ir grūti analizēt statiski

Salīdzinājums ar tradicionālajiem etaloniem

Salīdzinājuma analīze

Salīdzinot ar tradicionālo SWE-Bench, Mobile versijas grūtības pakāpe ir ievērojami palielinājusies:

Koda bāzes apjoms ir lielāks
Biznesa loģika ir sarežģītāka
Testēšanas gadījumus ir grūtāk izturēt
Konteksta loga prasības ir augstākas

Nozares nozīme

Šis etalons tests atklāj AI aģenta ierobežojumus reālos rūpnieciskos scenārijos. Lai gan AI ir strauji progresējis koda ģenerēšanas jomā, tam vēl ir tāls ceļš ejams, apstrādājot lielus, sarežģītus reālus projektus.

Nākotnes perspektīvas

SWE-Bench Mobile izlaišana nodrošina svarīgu mērauklu AI programmēšanas rīku attīstībai. Tas mums atgādina:

AI atbalstītai programmēšanai joprojām ir nepieciešama cilvēku uzraudzība
Sarežģītiem projektiem ir nepieciešama viedāka konteksta izpratne
Modeļa iespējām ir vēl daudz vietas uzlabojumiem

Resursu saites

Resursi

Raksts: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu izlaiž SWE-Bench Mobile: vai AI aģenta panākumu līmenis ir tikai 12%, saskaroties ar lietotnes koda bāzi ar simtiem miljonu lietotāju?

Xiaohongshu izlaiž SWE-Bench Mobile: vai AI aģenta panākumu līmenis ir tikai 12%, saskaroties ar lietotnes koda bāzi ar simtiem miljonu lietotāju?

Kas ir SWE-Bench Mobile?

Testēšanas rezultāti

Kāpēc tas ir tik grūti?

Salīdzinājums ar tradicionālajiem etaloniem

Nozares nozīme

Nākotnes perspektīvas

Resursu saites

You Might Also Like

Claude Code Buddy modificēšanas ceļvedis: kā iegūt spīdīgu leģendāro mājdzīvnieku

Obsidian ir izlaidusi Defuddle, pacelot Obsidian Web Clipper uz jauniem augstumiem

OpenAI pēkšņi paziņo par "trīs vienā": pārlūks + programmēšana + ChatGPT apvienošana, iekšēji atzīst, ka pagājušajā gadā tika pieļautas kļūdas

2026, vairs neuzspied sevi "pašdisciplīnai"! Veic šos 8 sīkumus, veselība nāks dabiski

Māmiņas, kas cenšas zaudēt svaru, bet nesasniedz rezultātus, noteikti ir šeit

AI Pārlūka 24 stundu stabilas darbības ceļvedis