小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?

2/15/2026
2 min read

小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?

SWE-Bench Mobile

Тим из 小红书 је објавио нови benchmark SWE-Bench Mobile, специјално за процену перформанси AI Agent-а на стварним кодовима мобилних апликација. Резултати су забрињавајући: чак и врхунски AI Agent, када се суочи са кодом апликације са стотинама милиона корисника, има највећу стопу пролазности од само 12%.

Тест сценарио

Шта је SWE-Bench Mobile?

Увод у benchmark

SWE-Bench Mobile је benchmark за поправку кода мобилних апликација. Садржи стварне задатке поправке грешака у мобилним апликацијама, који захтевају од AI Agent-а да:

  • Разуме сложену структуру кода мобилне апликације
  • Лоцира корен проблема
  • Генерише исправан код за поправку
  • Осигура да поправка не уводи нове проблеме

Резултати тестирања

Резултати тестирања

У тестирању, перформансе неколико главних AI Agent-а су биле следеће:

  • Најбољи резултат: 12% стопа пролазности
  • Просечан ниво: 5-8% стопа пролазности
  • Неки модели: Близу 0% стопе пролазности

Овај резултат је знатно нижи од перформанси на традиционалном SWE-Bench-у.

Зашто је ово тако тешко?

Анализа изазова

Специфичности кода мобилних апликација доносе додатне изазове:

  • Прилагођавање више платформи: Потребно је истовремено размотрити iOS и Android платформе
  • Сложени односи зависности: Висок степен спреге између модула мобилне апликације
  • Ограничења перформанси: Ограничени ресурси мобилних уређаја, високи захтеви за оптимизацију кода
  • Сложена UI логика: Код интеракције корисничког интерфејса је тешко статички анализирати

Поређење са традиционалним benchmark-ом

Анализа поређења

У поређењу са традиционалним SWE-Bench-ом, тежина Mobile верзије је знатно повећана:

  • Већа величина кода
  • Комплекснија пословна логика
  • Теже пролазни тестови
  • Већи захтеви за контекстуални прозор

Значај за индустрију

Значај за индустрију

Овај benchmark открива ограничења AI Agent-а у стварним индустријским сценаријима. Иако је AI брзо напредовао у генерисању кода, још увек има дуг пут да пређе у обради великих, сложених стварних пројеката.

Будући изгледи

Будући изгледи

Објављивање SWE-Bench Mobile пружа важан стандард за мерење развоја AI алата за програмирање. Подсећа нас да:

  • AI помоћ у програмирању и даље захтева људски надзор
  • Сложни пројекти захтевају интелигентније разумевање контекста
  • Постоји велики простор за побољшање способности модела

Линк до ресурса

Ресурси

Published in Technology

You Might Also Like