小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?
小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?

Тим из 小红书 је објавио нови benchmark SWE-Bench Mobile, специјално за процену перформанси AI Agent-а на стварним кодовима мобилних апликација. Резултати су забрињавајући: чак и врхунски AI Agent, када се суочи са кодом апликације са стотинама милиона корисника, има највећу стопу пролазности од само 12%.

Шта је SWE-Bench Mobile?

SWE-Bench Mobile је benchmark за поправку кода мобилних апликација. Садржи стварне задатке поправке грешака у мобилним апликацијама, који захтевају од AI Agent-а да:
- Разуме сложену структуру кода мобилне апликације
- Лоцира корен проблема
- Генерише исправан код за поправку
- Осигура да поправка не уводи нове проблеме
Резултати тестирања

У тестирању, перформансе неколико главних AI Agent-а су биле следеће:
- Најбољи резултат: 12% стопа пролазности
- Просечан ниво: 5-8% стопа пролазности
- Неки модели: Близу 0% стопе пролазности
Овај резултат је знатно нижи од перформанси на традиционалном SWE-Bench-у.
Зашто је ово тако тешко?

Специфичности кода мобилних апликација доносе додатне изазове:
- Прилагођавање више платформи: Потребно је истовремено размотрити iOS и Android платформе
- Сложени односи зависности: Висок степен спреге између модула мобилне апликације
- Ограничења перформанси: Ограничени ресурси мобилних уређаја, високи захтеви за оптимизацију кода
- Сложена UI логика: Код интеракције корисничког интерфејса је тешко статички анализирати
Поређење са традиционалним benchmark-ом

У поређењу са традиционалним SWE-Bench-ом, тежина Mobile верзије је знатно повећана:
- Већа величина кода
- Комплекснија пословна логика
- Теже пролазни тестови
- Већи захтеви за контекстуални прозор
Значај за индустрију

Овај benchmark открива ограничења AI Agent-а у стварним индустријским сценаријима. Иако је AI брзо напредовао у генерисању кода, још увек има дуг пут да пређе у обради великих, сложених стварних пројеката.
Будући изгледи

Објављивање SWE-Bench Mobile пружа важан стандард за мерење развоја AI алата за програмирање. Подсећа нас да:
- AI помоћ у програмирању и даље захтева људски надзор
- Сложни пројекти захтевају интелигентније разумевање контекста
- Постоји велики простор за побољшање способности модела
Линк до ресурса






