Xiaohongshu пусна SWE-Bench Mobile: Когато AI Agent се изправи пред кодова база на приложение с милиарди потребители, най-високият процент на успеваемост е само 12%?

SWE-Bench Mobile

Екипът на Xiaohongshu пусна нов бенчмарк тест SWE-Bench Mobile, специално за оценка на представянето на AI Agent в реални кодови бази на мобилни приложения. Резултатите са отрезвяващи: дори и най-добрите AI Agent, когато се изправят пред кодова база на приложение с милиарди потребители, най-високият процент на успеваемост е само 12%.

Тестови сценарий

Какво е SWE-Bench Mobile?

Въведение в бенчмарка

SWE-Bench Mobile е бенчмарк тест за поправка на код, насочен към разработката на мобилни приложения. Той съдържа реални задачи за поправка на бъгове в мобилни приложения, които изискват AI Agent да:

Разбира сложната структура на кода на мобилното приложение
Локализира първопричината на проблема
Генерира правилен код за поправка
Гарантира, че поправката не въвежда нови проблеми

Резултати от теста

В теста, представянето на няколко основни AI Agent е както следва:

Най-добро представяне: 12% процент на успеваемост
Средно ниво: 5-8% процент на успеваемост
Някои модели: Близо до 0% процент на успеваемост

Този резултат е много по-нисък от представянето на традиционния SWE-Bench.

Защо е толкова трудно?

Анализ на предизвикателствата

Специфичността на кодовите бази на мобилните приложения носи допълнителни предизвикателства:

Адаптиране към множество платформи: Необходимо е едновременно да се вземат предвид iOS и Android платформи
Сложни зависимости: Висока степен на свързаност между модулите на мобилното приложение
Ограничения на производителността: Мобилните устройства имат ограничени ресурси, изискванията за оптимизация на кода са високи
Сложна UI логика: Кодът за взаимодействие с интерфейса е труден за статичен анализ

Сравнение с традиционните бенчмаркове

Сравнителен анализ

В сравнение с традиционния SWE-Bench, трудността на Mobile версията е значително увеличена:

По-голям мащаб на кодовата база
По-сложна бизнес логика
По-трудни за преминаване тестови случаи
По-високи изисквания към контекстния прозорец

Значение за индустрията

Този бенчмарк тест разкрива ограниченията на AI Agent в реални индустриални сценарии. Въпреки че AI напредва бързо в генерирането на код, все още има дълъг път да извърви при обработката на големи, сложни реални проекти.

Бъдещи перспективи

Пускането на SWE-Bench Mobile предоставя важен стандарт за измерване на развитието на AI инструменти за програмиране. Той ни напомня:

AI подпомаганото програмиране все още се нуждае от човешки надзор
Сложните проекти се нуждаят от по-интелигентно разбиране на контекста
Има голям потенциал за подобряване на възможностите на модела

Връзки към ресурси

Ресурси

Доклад: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu пусна SWE-Bench Mobile: Когато AI Agent се изправи пред кодова база на приложение с милиарди потребители, най-високият процент на успеваемост е само 12%?

Xiaohongshu пусна SWE-Bench Mobile: Когато AI Agent се изправи пред кодова база на приложение с милиарди потребители, най-високият процент на успеваемост е само 12%?

Какво е SWE-Bench Mobile?

Резултати от теста

Защо е толкова трудно?

Сравнение с традиционните бенчмаркове

Значение за индустрията

Бъдещи перспективи

Връзки към ресурси

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

AI Browser 24小时稳定运行指南