Xiaohongshu objavljuje SWE-Bench Mobile: Kada se AI Agent suoči s kodnom bazom aplikacije s milijardama korisnika, maksimalna stopa prolaznosti je samo 12%?

2/15/2026
2 min read

Xiaohongshu objavljuje SWE-Bench Mobile: Kada se AI Agent suoči s kodnom bazom aplikacije s milijardama korisnika, maksimalna stopa prolaznosti je samo 12%?

SWE-Bench Mobile

Tim Xiaohongshu objavio je novi benchmark SWE-Bench Mobile, posebno dizajniran za procjenu performansi AI Agenta na stvarnim kodnim bazama mobilnih aplikacija. Rezultati su potaknuli na razmišljanje: čak i vrhunski AI Agenti, kada se suoče s kodnom bazom aplikacije s milijardama korisnika, imaju maksimalnu stopu prolaznosti od samo 12%.

Testni scenarij

Što je SWE-Bench Mobile?

Uvod u benchmark

SWE-Bench Mobile je benchmark za popravljanje koda namijenjen razvoju mobilnih aplikacija. Sadrži stvarne zadatke popravljanja bugova u mobilnim aplikacijama, zahtijevajući od AI Agenta da:

  • Razumije složenu strukturu koda mobilne aplikacije
  • Locira korijen problema
  • Generira ispravan kod za popravak
  • Osigura da popravak ne uvodi nove probleme

Rezultati testiranja

Rezultati testiranja

U testiranju, performanse nekoliko glavnih AI Agenata su sljedeće:

  • Najbolja izvedba: 12% stopa prolaznosti
  • Prosječna razina: 5-8% stopa prolaznosti
  • Neki modeli: Blizu 0% stopa prolaznosti

Ovaj je rezultat znatno niži od performansi na tradicionalnom SWE-Benchu.

Zašto je tako teško?

Analiza izazova

Specifičnosti kodne baze mobilnih aplikacija donose dodatne izazove:

  • Adaptacija za više platformi: Potrebno je istovremeno razmotriti iOS i Android platforme
  • Složeni odnosi ovisnosti: Visok stupanj povezanosti između modula mobilne aplikacije
  • Ograničenja performansi: Ograničeni resursi mobilnih uređaja, visoki zahtjevi za optimizaciju koda
  • Složena UI logika: Kod interakcije sučelja teško je statički analizirati

Usporedba s tradicionalnim benchmarkovima

Analiza usporedbe

U usporedbi s tradicionalnim SWE-Benchom, težina Mobile verzije je značajno povećana:

  • Veća veličina kodne baze
  • Složenija poslovna logika
  • Teže je proći testne slučajeve
  • Veći zahtjevi za kontekstualni prozor

Značaj za industriju

Značaj za industriju

Ovaj benchmark otkriva ograničenja AI Agenata u stvarnim industrijskim scenarijima. Iako je AI brzo napredovao u generiranju koda, još uvijek ima dug put prije nego što se može nositi s velikim, složenim stvarnim projektima.

Budući izgledi

Budući izgledi

Objavljivanje SWE-Bench Mobile pruža važan standard za mjerenje razvoja AI alata za programiranje. Podsjeća nas da:

  • AI pomoć u programiranju još uvijek zahtijeva ljudski nadzor
  • Složeni projekti zahtijevaju inteligentnije razumijevanje konteksta
  • Kapacitet modela ima još puno prostora za poboljšanje

Resursi

Resursi

Published in Technology

You Might Also Like