小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?

SWE-Bench Mobile

Тим из 小红书 је објавио нови benchmark SWE-Bench Mobile, специјално за процену перформанси AI Agent-а на стварним кодовима мобилних апликација. Резултати су забрињавајући: чак и врхунски AI Agent, када се суочи са кодом апликације са стотинама милиона корисника, има највећу стопу пролазности од само 12%.

Тест сценарио

Шта је SWE-Bench Mobile?

Увод у benchmark

SWE-Bench Mobile је benchmark за поправку кода мобилних апликација. Садржи стварне задатке поправке грешака у мобилним апликацијама, који захтевају од AI Agent-а да:

Разуме сложену структуру кода мобилне апликације
Лоцира корен проблема
Генерише исправан код за поправку
Осигура да поправка не уводи нове проблеме

Резултати тестирања

У тестирању, перформансе неколико главних AI Agent-а су биле следеће:

Најбољи резултат: 12% стопа пролазности
Просечан ниво: 5-8% стопа пролазности
Неки модели: Близу 0% стопе пролазности

Овај резултат је знатно нижи од перформанси на традиционалном SWE-Bench-у.

Зашто је ово тако тешко?

Анализа изазова

Специфичности кода мобилних апликација доносе додатне изазове:

Прилагођавање више платформи: Потребно је истовремено размотрити iOS и Android платформе
Сложени односи зависности: Висок степен спреге између модула мобилне апликације
Ограничења перформанси: Ограничени ресурси мобилних уређаја, високи захтеви за оптимизацију кода
Сложена UI логика: Код интеракције корисничког интерфејса је тешко статички анализирати

Поређење са традиционалним benchmark-ом

Анализа поређења

У поређењу са традиционалним SWE-Bench-ом, тежина Mobile верзије је знатно повећана:

Већа величина кода
Комплекснија пословна логика
Теже пролазни тестови
Већи захтеви за контекстуални прозор

Значај за индустрију

Овај benchmark открива ограничења AI Agent-а у стварним индустријским сценаријима. Иако је AI брзо напредовао у генерисању кода, још увек има дуг пут да пређе у обради великих, сложених стварних пројеката.

Будући изгледи

Објављивање SWE-Bench Mobile пружа важан стандард за мерење развоја AI алата за програмирање. Подсећа нас да:

AI помоћ у програмирању и даље захтева људски надзор
Сложни пројекти захтевају интелигентније разумевање контекста
Постоји велики простор за побољшање способности модела

Линк до ресурса

Ресурси

Рад: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?

小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?

Шта је SWE-Bench Mobile?

Резултати тестирања

Зашто је ово тако тешко?

Поређење са традиционалним benchmark-ом

Значај за индустрију

Будући изгледи

Линк до ресурса

You Might Also Like

Claude Code Buddy модификација: Како добити сјајног легендарног љубимца

Obsidian je lansirao Defuddle, podigao Obsidian Web Clipper na novi nivo

OpenAI iznenada najavljuje "tri u jednom": spajanje pretraživača + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogrešili

2026, ne prisiljavajte se na "disciplinu"! Uradite ovih 8 malih stvari, zdravlje će doći prirodno

One of the reasons why mothers who work hard to lose weight can't succeed is definitely here

AI Browser 24-сатна стабилна операција