小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?

2/15/2026
2 min read

小红书 објављује SWE-Bench Mobile: Када се AI Agent суочи са кодом апликације са стотинама милиона корисника, највећа стопа пролазности је само 12%?

SWE-Bench Mobile

Тим из 小红书 је објавио нови benchmark SWE-Bench Mobile, специјално за процену перформанси AI Agent-а на стварним кодовима мобилних апликација. Резултати су забрињавајући: чак и врхунски AI Agent, када се суочи са кодом апликације са стотинама милиона корисника, има највећу стопу пролазности од само 12%.

Тест сценарио

Шта је SWE-Bench Mobile?

Увод у benchmark

SWE-Bench Mobile је benchmark за поправку кода мобилних апликација. Садржи стварне задатке поправке грешака у мобилним апликацијама, који захтевају од AI Agent-а да:

  • Разуме сложену структуру кода мобилне апликације
  • Лоцира корен проблема
  • Генерише исправан код за поправку
  • Осигура да поправка не уводи нове проблеме

Резултати тестирања

Резултати тестирања

У тестирању, перформансе неколико главних AI Agent-а су биле следеће:

  • Најбољи резултат: 12% стопа пролазности
  • Просечан ниво: 5-8% стопа пролазности
  • Неки модели: Близу 0% стопе пролазности

Овај резултат је знатно нижи од перформанси на традиционалном SWE-Bench-у.

Зашто је ово тако тешко?

Анализа изазова

Специфичности кода мобилних апликација доносе додатне изазове:

  • Прилагођавање више платформи: Потребно је истовремено размотрити iOS и Android платформе
  • Сложени односи зависности: Висок степен спреге између модула мобилне апликације
  • Ограничења перформанси: Ограничени ресурси мобилних уређаја, високи захтеви за оптимизацију кода
  • Сложена UI логика: Код интеракције корисничког интерфејса је тешко статички анализирати

Поређење са традиционалним benchmark-ом

Анализа поређења

У поређењу са традиционалним SWE-Bench-ом, тежина Mobile верзије је знатно повећана:

  • Већа величина кода
  • Комплекснија пословна логика
  • Теже пролазни тестови
  • Већи захтеви за контекстуални прозор

Значај за индустрију

Значај за индустрију

Овај benchmark открива ограничења AI Agent-а у стварним индустријским сценаријима. Иако је AI брзо напредовао у генерисању кода, још увек има дуг пут да пређе у обради великих, сложених стварних пројеката.

Будући изгледи

Будући изгледи

Објављивање SWE-Bench Mobile пружа важан стандард за мерење развоја AI алата за програмирање. Подсећа нас да:

  • AI помоћ у програмирању и даље захтева људски надзор
  • Сложни пројекти захтевају интелигентније разумевање контекста
  • Постоји велики простор за побољшање способности модела

Линк до ресурса

Ресурси

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy модификација: Како добити сјајног легендарног љубимца

Claude Code Buddy модификација: Како добити сјајног легендарног љубимца априла 2026. године, Anthropic је у верзији Clau...

Obsidian je lansirao Defuddle, podigao Obsidian Web Clipper na novi nivoTechnology

Obsidian je lansirao Defuddle, podigao Obsidian Web Clipper na novi nivo

Obsidian je lansirao Defuddle, podigao Obsidian Web Clipper na novi nivo Uvek sam voleo osnovnu ideju Obsidiana: lokaln...

OpenAI iznenada najavljuje "tri u jednom": spajanje pretraživača + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogrešiliTechnology

OpenAI iznenada najavljuje "tri u jednom": spajanje pretraživača + programiranja + ChatGPT, unutrašnje priznanje da su prošle godine pogrešili

OpenAI iznenada najavljuje "tri u jednom": spajanje pretraživača + programiranja + ChatGPT, unutrašnje priznanje da su p...

2026, ne prisiljavajte se na "disciplinu"! Uradite ovih 8 malih stvari, zdravlje će doći prirodnoHealth

2026, ne prisiljavajte se na "disciplinu"! Uradite ovih 8 malih stvari, zdravlje će doći prirodno

2026, ne prisiljavajte se na "disciplinu"! Uradite ovih 8 malih stvari, zdravlje će doći prirodno Nova godina je počela...

One of the reasons why mothers who work hard to lose weight can't succeed is definitely hereHealth

One of the reasons why mothers who work hard to lose weight can't succeed is definitely here

One of the reasons why mothers who work hard to lose weight can't succeed is definitely here Mart je već prošao, kako n...

📝
Technology

AI Browser 24-сатна стабилна операција

AI Browser 24-сатна стабилна операција Овај водич описује како да се подеси стабилно, дугорочно окружење за AI прегледач...