Xiaohongshu објави SWE-Bench Mobile: Кога AI Agent се соочува со код база на апликација со милиони корисници, максималната стапка на успех е само 12%?

2/15/2026
3 min read

Xiaohongshu објави SWE-Bench Mobile: Кога AI Agent се соочува со код база на апликација со милиони корисници, максималната стапка на успех е само 12%?

SWE-Bench Mobile

Тимот на Xiaohongshu објави нов репер тест SWE-Bench Mobile, специјално за проценка на перформансите на AI Agent на реални код бази на мобилни апликации. Резултатите се загрижувачки: дури и врвните AI Agent, кога се соочуваат со код база на апликација со милиони корисници, имаат максимална стапка на успех од само 12%.

Тест сценарио

Што е SWE-Bench Mobile?

Вовед во реперот

SWE-Bench Mobile е репер тест за поправка на код наменет за развој на мобилни апликации. Тој содржи реални задачи за поправка на грешки во мобилни апликации, кои бараат AI Agent да може:

  • Да ја разбере сложената структура на кодот на мобилната апликација
  • Да го лоцира изворот на проблемот
  • Да генерира точен код за поправка
  • Да се осигура дека поправката не воведува нови проблеми

Резултати од тестот

Резултати од тестот

Во тестот, перформансите на неколку главни AI Agent се следни:

  • Најдобри перформанси: 12% стапка на успех
  • Просечно ниво: 5-8% стапка на успех
  • Некои модели: близу до 0% стапка на успех

Овој резултат е далеку под перформансите на традиционалниот SWE-Bench.

Зошто е толку тешко?

Анализа на предизвици

Спецификите на код базата на мобилни апликации носат дополнителни предизвици:

  • Адаптација на повеќе платформи: Потребно е истовремено да се земат предвид iOS и Android платформите
  • Сложени зависности: Висока е поврзаноста помеѓу модулите на мобилните апликации
  • Ограничувања на перформансите: Мобилните уреди имаат ограничени ресурси, а барањата за оптимизација на кодот се високи
  • Сложена UI логика: Кодот за интеракција со корисничкиот интерфејс е тешко да се анализира статички

Споредба со традиционалните репери

Анализа на споредба

Во споредба со традиционалниот SWE-Bench, тежината на Mobile верзијата е значително зголемена:

  • Код базата е поголема
  • Бизнис логиката е посложена
  • Тест случаите се потешки за поминување
  • Потребно е поголемо контекстно поле

Значење за индустријата

Значење за индустријата

Овој репер тест ги открива ограничувањата на AI Agent во реални индустриски сценарија. Иако AI брзо напредува во генерирањето код, сепак има долг пат да се помине кога станува збор за справување со големи, сложени реални проекти.

Идни изгледи

Идни изгледи

Објавувањето на SWE-Bench Mobile обезбедува важен стандард за мерење на развојот на AI алатките за програмирање. Тоа нè потсетува дека:

  • AI помошното програмирање сè уште бара човечки надзор
  • Сложните проекти бараат поинтелигентно разбирање на контекстот
  • Има многу простор за подобрување на способностите на моделот

Линк до ресурси

Ресурси

Published in Technology

You Might Also Like

2026 година Топ 10 AI алатки препораки: Ослободување на вистинскиот потенцијал на вештачката интелигенцијаTechnology

2026 година Топ 10 AI алатки препораки: Ослободување на вистинскиот потенцијал на вештачката интелигенција

2026 година Топ 10 AI алатки препораки: Ослободување на вистинскиот потенцијал на вештачката интелигенција Во денешно вр...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 Во брзо развивачкиот облачен компјутинг сектор, Amazon Web Services (AWS) секогаш бил лидер, нуд...

2026 година Топ 10 тајни за успех на стартапи: Помогнете си да се истакнете во конкуренцијатаTechnology

2026 година Топ 10 тајни за успех на стартапи: Помогнете си да се истакнете во конкуренцијата

2026 година Топ 10 тајни за успех на стартапи: Помогнете си да се истакнете во конкуренцијата Во оваа брзо менувачка биз...

2026 година Топ 10 AI алатки препораки: Најдобри избори за зголемување на работната ефикасностTechnology

2026 година Топ 10 AI алатки препораки: Најдобри избори за зголемување на работната ефикасност

2026 година Топ 10 AI алатки препораки: Најдобри избори за зголемување на работната ефикасност Во денешно време на брз р...

Поради iTerm2 подобар Claude Code терминал е роден!Technology

Поради iTerm2 подобар Claude Code терминал е роден!

# Поради iTerm2 подобар Claude Code терминал е роден! Здраво на сите, јас сум Guide. Денес ќе разговараме за неколку "с...

2026 година Топ 10 AI алатки за програмирање: Најдобри помошници за зголемување на ефикасноста на развојотTechnology

2026 година Топ 10 AI алатки за програмирање: Најдобри помошници за зголемување на ефикасноста на развојот

# 2026 година Топ 10 AI алатки за програмирање: Најдобри помошници за зголемување на ефикасноста на развојот Со брзиот ...