Xiaohongshu objavljuje SWE-Bench Mobile: Kada se AI Agent suoči s kodnom bazom aplikacije sa stotinama miliona korisnika, maksimalna stopa prolaznosti je samo 12%?
Xiaohongshu objavljuje SWE-Bench Mobile: Kada se AI Agent suoči s kodnom bazom aplikacije sa stotinama miliona korisnika, maksimalna stopa prolaznosti je samo 12%?

Tim Xiaohongshu objavio je novi benchmark test SWE-Bench Mobile, specijalno dizajniran za procjenu performansi AI Agenta na stvarnim kodnim bazama mobilnih aplikacija. Rezultati su potaknuli na razmišljanje: čak i najbolji AI Agenti, suočeni s kodnom bazom aplikacije sa stotinama miliona korisnika, imaju maksimalnu stopu prolaznosti od samo 12%.

Šta je SWE-Bench Mobile?

SWE-Bench Mobile je benchmark test za popravljanje koda namijenjen razvoju mobilnih aplikacija. Sadrži stvarne zadatke popravljanja grešaka u mobilnim aplikacijama, zahtijevajući od AI Agenta da:
- Razumije složenu strukturu koda mobilne aplikacije
- Locira korijen problema
- Generiše ispravan kod za popravak
- Osigura da popravak ne uvodi nove probleme
Rezultati testiranja

U testiranju, performanse nekoliko glavnih AI Agenata su sljedeće:
- Najbolji rezultat: 12% stopa prolaznosti
- Prosječan nivo: 5-8% stopa prolaznosti
- Pojedini modeli: Blizu 0% stopa prolaznosti
Ovaj rezultat je znatno niži od performansi na tradicionalnom SWE-Benchu.
Zašto je tako teško?

Specifičnosti kodne baze mobilnih aplikacija donose dodatne izazove:
- Adaptacija za više platformi: Potrebno je istovremeno razmotriti iOS i Android platforme
- Složeni odnosi zavisnosti: Visok stepen povezanosti između modula mobilne aplikacije
- Ograničenja performansi: Ograničeni resursi mobilnih uređaja, visoki zahtjevi za optimizaciju koda
- Složena UI logika: Kod interakcije sučelja je teško statički analizirati
Poređenje s tradicionalnim benchmarkovima

U poređenju s tradicionalnim SWE-Benchom, težina Mobile verzije je značajno povećana:
- Veća veličina kodne baze
- Složenija poslovna logika
- Teže prolazni testni slučajevi
- Veći zahtjevi za kontekstualni prozor
Značaj za industriju

Ovaj benchmark test otkriva ograničenja AI Agenata u stvarnim industrijskim scenarijima. Iako AI brzo napreduje u generiranju koda, još uvijek ima dug put prije nego što bude mogao obraditi velike, složene stvarne projekte.
Budući izgledi

Objavljivanje SWE-Bench Mobile pruža važan standard za mjerenje razvoja AI alata za programiranje. Podsjeća nas da:
- AI pomoć u programiranju još uvijek zahtijeva ljudski nadzor
- Složeni projekti zahtijevaju inteligentnije razumijevanje konteksta
- Kapacitet modela ima još puno prostora za poboljšanje
Linkovi resursa






