Xiaohongshu выпустила SWE-Bench Mobile: когда AI Agent сталкивается с кодовой базой приложения с сотнями миллионов пользователей, максимальный процент успешных решений составляет всего 12%?

SWE-Bench Mobile

Команда Xiaohongshu выпустила новый бенчмарк SWE-Bench Mobile, специально разработанный для оценки производительности AI Agent на реальных кодовых базах мобильных приложений. Результаты заставляют задуматься: даже лучшие AI Agent, сталкиваясь с кодовой базой приложения с сотнями миллионов пользователей, показывают максимальный процент успешных решений всего 12%.

Тестовые сценарии

Что такое SWE-Bench Mobile?

Описание бенчмарка

SWE-Bench Mobile — это бенчмарк для исправления кода, предназначенный для разработки мобильных приложений. Он включает в себя реальные задачи по исправлению ошибок в мобильных приложениях, требующие от AI Agent:

Понимания сложной структуры кода мобильного приложения
Локализации первопричины проблемы
Генерации правильного кода исправления
Обеспечения того, чтобы исправление не приводило к новым проблемам

Результаты тестирования

В ходе тестирования несколько основных AI Agent показали следующие результаты:

Лучший результат: 12% успешных решений
Средний уровень: 5-8% успешных решений
Некоторые модели: около 0% успешных решений

Этот результат значительно ниже, чем производительность на традиционном SWE-Bench.

Почему это так сложно?

Анализ проблем

Специфика кодовой базы мобильных приложений создает дополнительные проблемы:

Адаптация к нескольким платформам: необходимо учитывать платформы iOS и Android одновременно
Сложные зависимости: высокая степень связанности между модулями мобильного приложения
Ограничения производительности: мобильные устройства имеют ограниченные ресурсы, высокие требования к оптимизации кода
Сложная UI-логика: код взаимодействия с интерфейсом сложно анализировать статически

Сравнение с традиционными бенчмарками

Сравнительный анализ

По сравнению с традиционным SWE-Bench, сложность Mobile-версии значительно возросла:

Больший размер кодовой базы
Более сложная бизнес-логика
Сложнее пройти тестовые примеры
Более высокие требования к контекстному окну

Значение для отрасли

Этот бенчмарк показывает ограничения AI Agent в реальных промышленных сценариях. Хотя AI быстро прогрессирует в генерации кода, ему еще предстоит пройти долгий путь в обработке крупных и сложных реальных проектов.

Перспективы на будущее

Выпуск SWE-Bench Mobile предоставляет важный критерий для развития инструментов AI-программирования. Он напоминает нам:

AI-помощь в программировании по-прежнему требует контроля со стороны человека
Сложные проекты требуют более интеллектуального понимания контекста
Возможности модели имеют большой потенциал для улучшения

Ссылки на ресурсы

Ресурсы

Статья: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Что такое SWE-Bench Mobile?

Результаты тестирования

Почему это так сложно?

Сравнение с традиционными бенчмарками

Значение для отрасли

Перспективы на будущее

Ссылки на ресурсы

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

AI Browser 24小时稳定运行指南