Xiaohongshu објави SWE-Bench Mobile: Кога AI Agent се соочува со код база на апликација со милиони корисници, максималната стапка на успех е само 12%?

2/15/2026
3 min read

Xiaohongshu објави SWE-Bench Mobile: Кога AI Agent се соочува со код база на апликација со милиони корисници, максималната стапка на успех е само 12%?

SWE-Bench Mobile

Тимот на Xiaohongshu објави нов репер тест SWE-Bench Mobile, специјално за проценка на перформансите на AI Agent на реални код бази на мобилни апликации. Резултатите се загрижувачки: дури и врвните AI Agent, кога се соочуваат со код база на апликација со милиони корисници, имаат максимална стапка на успех од само 12%.

Тест сценарио

Што е SWE-Bench Mobile?

Вовед во реперот

SWE-Bench Mobile е репер тест за поправка на код наменет за развој на мобилни апликации. Тој содржи реални задачи за поправка на грешки во мобилни апликации, кои бараат AI Agent да може:

  • Да ја разбере сложената структура на кодот на мобилната апликација
  • Да го лоцира изворот на проблемот
  • Да генерира точен код за поправка
  • Да се осигура дека поправката не воведува нови проблеми

Резултати од тестот

Резултати од тестот

Во тестот, перформансите на неколку главни AI Agent се следни:

  • Најдобри перформанси: 12% стапка на успех
  • Просечно ниво: 5-8% стапка на успех
  • Некои модели: близу до 0% стапка на успех

Овој резултат е далеку под перформансите на традиционалниот SWE-Bench.

Зошто е толку тешко?

Анализа на предизвици

Спецификите на код базата на мобилни апликации носат дополнителни предизвици:

  • Адаптација на повеќе платформи: Потребно е истовремено да се земат предвид iOS и Android платформите
  • Сложени зависности: Висока е поврзаноста помеѓу модулите на мобилните апликации
  • Ограничувања на перформансите: Мобилните уреди имаат ограничени ресурси, а барањата за оптимизација на кодот се високи
  • Сложена UI логика: Кодот за интеракција со корисничкиот интерфејс е тешко да се анализира статички

Споредба со традиционалните репери

Анализа на споредба

Во споредба со традиционалниот SWE-Bench, тежината на Mobile верзијата е значително зголемена:

  • Код базата е поголема
  • Бизнис логиката е посложена
  • Тест случаите се потешки за поминување
  • Потребно е поголемо контекстно поле

Значење за индустријата

Значење за индустријата

Овој репер тест ги открива ограничувањата на AI Agent во реални индустриски сценарија. Иако AI брзо напредува во генерирањето код, сепак има долг пат да се помине кога станува збор за справување со големи, сложени реални проекти.

Идни изгледи

Идни изгледи

Објавувањето на SWE-Bench Mobile обезбедува важен стандард за мерење на развојот на AI алатките за програмирање. Тоа нè потсетува дека:

  • AI помошното програмирање сè уште бара човечки надзор
  • Сложните проекти бараат поинтелигентно разбирање на контекстот
  • Има многу простор за подобрување на способностите на моделот

Линк до ресурси

Ресурси

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче На 1 април 2026 година, Anthropic во верзиј...

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново нивоTechnology

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво Уште од почетокот, многу ми се допаѓа осно...

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата годинаTechnology

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата година

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешн...

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природноHealth

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно Нова година ...

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тукаHealth

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука Март веќе помина наполовина, како напреду...

📝
Technology

AI Browser 24 часов стабилно работење водич

AI Browser 24 часов стабилно работење водич Овој туторијал објаснува како да се постави стабилна, долгорочна средина за ...