Xiaohongshu пусна SWE-Bench Mobile: Когато AI Agent се изправи пред кодова база на приложение с милиарди потребители, най-високият процент на успеваемост е само 12%?

2/15/2026
3 min read

Xiaohongshu пусна SWE-Bench Mobile: Когато AI Agent се изправи пред кодова база на приложение с милиарди потребители, най-високият процент на успеваемост е само 12%?

SWE-Bench Mobile

Екипът на Xiaohongshu пусна нов бенчмарк тест SWE-Bench Mobile, специално за оценка на представянето на AI Agent в реални кодови бази на мобилни приложения. Резултатите са отрезвяващи: дори и най-добрите AI Agent, когато се изправят пред кодова база на приложение с милиарди потребители, най-високият процент на успеваемост е само 12%.

Тестови сценарий

Какво е SWE-Bench Mobile?

Въведение в бенчмарка

SWE-Bench Mobile е бенчмарк тест за поправка на код, насочен към разработката на мобилни приложения. Той съдържа реални задачи за поправка на бъгове в мобилни приложения, които изискват AI Agent да:

  • Разбира сложната структура на кода на мобилното приложение
  • Локализира първопричината на проблема
  • Генерира правилен код за поправка
  • Гарантира, че поправката не въвежда нови проблеми

Резултати от теста

Резултати от теста

В теста, представянето на няколко основни AI Agent е както следва:

  • Най-добро представяне: 12% процент на успеваемост
  • Средно ниво: 5-8% процент на успеваемост
  • Някои модели: Близо до 0% процент на успеваемост

Този резултат е много по-нисък от представянето на традиционния SWE-Bench.

Защо е толкова трудно?

Анализ на предизвикателствата

Специфичността на кодовите бази на мобилните приложения носи допълнителни предизвикателства:

  • Адаптиране към множество платформи: Необходимо е едновременно да се вземат предвид iOS и Android платформи
  • Сложни зависимости: Висока степен на свързаност между модулите на мобилното приложение
  • Ограничения на производителността: Мобилните устройства имат ограничени ресурси, изискванията за оптимизация на кода са високи
  • Сложна UI логика: Кодът за взаимодействие с интерфейса е труден за статичен анализ

Сравнение с традиционните бенчмаркове

Сравнителен анализ

В сравнение с традиционния SWE-Bench, трудността на Mobile версията е значително увеличена:

  • По-голям мащаб на кодовата база
  • По-сложна бизнес логика
  • По-трудни за преминаване тестови случаи
  • По-високи изисквания към контекстния прозорец

Значение за индустрията

Значение за индустрията

Този бенчмарк тест разкрива ограниченията на AI Agent в реални индустриални сценарии. Въпреки че AI напредва бързо в генерирането на код, все още има дълъг път да извърви при обработката на големи, сложни реални проекти.

Бъдещи перспективи

Бъдещи перспективи

Пускането на SWE-Bench Mobile предоставя важен стандарт за измерване на развитието на AI инструменти за програмиране. Той ни напомня:

  • AI подпомаганото програмиране все още се нуждае от човешки надзор
  • Сложните проекти се нуждаят от по-интелигентно разбиране на контекста
  • Има голям потенциал за подобряване на възможностите на модела

Връзки към ресурси

Ресурси

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修改指南:如何获得闪光传说级宠物

Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново нивоTechnology

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво Винаги съм харесвал основната концепция на Obsid...

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната годинаTechnology

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен ...

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естественоHealth

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено Нова година...

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тукHealth

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук Март вече е наполовина, как върви тв...

📝
Technology

AI Browser 24小时稳定运行指南

AI Browser 24小时 стабилен режим на работа Този урок представя как да настроите стабилна, дългосрочна среда за работа с AI...