Xiaohongshu objavljuje SWE-Bench Mobile: Kada se AI Agent suoči s kodnom bazom aplikacije sa stotinama miliona korisnika, maksimalna stopa prolaznosti je samo 12%?

SWE-Bench Mobile

Tim Xiaohongshu objavio je novi benchmark test SWE-Bench Mobile, specijalno dizajniran za procjenu performansi AI Agenta na stvarnim kodnim bazama mobilnih aplikacija. Rezultati su potaknuli na razmišljanje: čak i najbolji AI Agenti, suočeni s kodnom bazom aplikacije sa stotinama miliona korisnika, imaju maksimalnu stopu prolaznosti od samo 12%.

Testni scenarij

Šta je SWE-Bench Mobile?

Uvod u benchmark

SWE-Bench Mobile je benchmark test za popravljanje koda namijenjen razvoju mobilnih aplikacija. Sadrži stvarne zadatke popravljanja grešaka u mobilnim aplikacijama, zahtijevajući od AI Agenta da:

Razumije složenu strukturu koda mobilne aplikacije
Locira korijen problema
Generiše ispravan kod za popravak
Osigura da popravak ne uvodi nove probleme

Rezultati testiranja

U testiranju, performanse nekoliko glavnih AI Agenata su sljedeće:

Najbolji rezultat: 12% stopa prolaznosti
Prosječan nivo: 5-8% stopa prolaznosti
Pojedini modeli: Blizu 0% stopa prolaznosti

Ovaj rezultat je znatno niži od performansi na tradicionalnom SWE-Benchu.

Zašto je tako teško?

Analiza izazova

Specifičnosti kodne baze mobilnih aplikacija donose dodatne izazove:

Adaptacija za više platformi: Potrebno je istovremeno razmotriti iOS i Android platforme
Složeni odnosi zavisnosti: Visok stepen povezanosti između modula mobilne aplikacije
Ograničenja performansi: Ograničeni resursi mobilnih uređaja, visoki zahtjevi za optimizaciju koda
Složena UI logika: Kod interakcije sučelja je teško statički analizirati

Poređenje s tradicionalnim benchmarkovima

Analiza poređenja

U poređenju s tradicionalnim SWE-Benchom, težina Mobile verzije je značajno povećana:

Veća veličina kodne baze
Složenija poslovna logika
Teže prolazni testni slučajevi
Veći zahtjevi za kontekstualni prozor

Značaj za industriju

Ovaj benchmark test otkriva ograničenja AI Agenata u stvarnim industrijskim scenarijima. Iako AI brzo napreduje u generiranju koda, još uvijek ima dug put prije nego što bude mogao obraditi velike, složene stvarne projekte.

Budući izgledi

Objavljivanje SWE-Bench Mobile pruža važan standard za mjerenje razvoja AI alata za programiranje. Podsjeća nas da:

AI pomoć u programiranju još uvijek zahtijeva ljudski nadzor
Složeni projekti zahtijevaju inteligentnije razumijevanje konteksta
Kapacitet modela ima još puno prostora za poboljšanje

Linkovi resursa

Resursi

Rad: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu objavljuje SWE-Bench Mobile: Kada se AI Agent suoči s kodnom bazom aplikacije sa stotinama miliona korisnika, maksimalna stopa prolaznosti je samo 12%?

Xiaohongshu objavljuje SWE-Bench Mobile: Kada se AI Agent suoči s kodnom bazom aplikacije sa stotinama miliona korisnika, maksimalna stopa prolaznosti je samo 12%?

Šta je SWE-Bench Mobile?

Rezultati testiranja

Zašto je tako teško?

Poređenje s tradicionalnim benchmarkovima

Značaj za industriju

Budući izgledi

Linkovi resursa

You Might Also Like

Claude Code Buddy izmjena vodič: Kako dobiti sjajnog legendarno ljubimca

Obsidian je lansirao Defuddle, podižući Obsidian Web Clipper na novu visinu

OpenAI iznenada najavljuje "tri u jedan": spajanje preglednika + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogriješili

2026, ne prisiljavaj se na "disciplinu"! Učini ovih 8 malih stvari, zdravlje će doći prirodno

One of the reasons why mothers who struggle to lose weight fail

AI Browser 24小时稳定运行指南