Xiaohongshu выпустила SWE-Bench Mobile: когда AI Agent сталкивается с кодовой базой приложения с сотнями миллионов пользователей, максимальный процент успешных решений составляет всего 12%?

2/15/2026
2 min read

Xiaohongshu выпустила SWE-Bench Mobile: когда AI Agent сталкивается с кодовой базой приложения с сотнями миллионов пользователей, максимальный процент успешных решений составляет всего 12%?

SWE-Bench Mobile

Команда Xiaohongshu выпустила новый бенчмарк SWE-Bench Mobile, специально разработанный для оценки производительности AI Agent на реальных кодовых базах мобильных приложений. Результаты заставляют задуматься: даже лучшие AI Agent, сталкиваясь с кодовой базой приложения с сотнями миллионов пользователей, показывают максимальный процент успешных решений всего 12%.

Тестовые сценарии

Что такое SWE-Bench Mobile?

Описание бенчмарка

SWE-Bench Mobile — это бенчмарк для исправления кода, предназначенный для разработки мобильных приложений. Он включает в себя реальные задачи по исправлению ошибок в мобильных приложениях, требующие от AI Agent:

  • Понимания сложной структуры кода мобильного приложения
  • Локализации первопричины проблемы
  • Генерации правильного кода исправления
  • Обеспечения того, чтобы исправление не приводило к новым проблемам

Результаты тестирования

Результаты тестирования

В ходе тестирования несколько основных AI Agent показали следующие результаты:

  • Лучший результат: 12% успешных решений
  • Средний уровень: 5-8% успешных решений
  • Некоторые модели: около 0% успешных решений

Этот результат значительно ниже, чем производительность на традиционном SWE-Bench.

Почему это так сложно?

Анализ проблем

Специфика кодовой базы мобильных приложений создает дополнительные проблемы:

  • Адаптация к нескольким платформам: необходимо учитывать платформы iOS и Android одновременно
  • Сложные зависимости: высокая степень связанности между модулями мобильного приложения
  • Ограничения производительности: мобильные устройства имеют ограниченные ресурсы, высокие требования к оптимизации кода
  • Сложная UI-логика: код взаимодействия с интерфейсом сложно анализировать статически

Сравнение с традиционными бенчмарками

Сравнительный анализ

По сравнению с традиционным SWE-Bench, сложность Mobile-версии значительно возросла:

  • Больший размер кодовой базы
  • Более сложная бизнес-логика
  • Сложнее пройти тестовые примеры
  • Более высокие требования к контекстному окну

Значение для отрасли

Значение для отрасли

Этот бенчмарк показывает ограничения AI Agent в реальных промышленных сценариях. Хотя AI быстро прогрессирует в генерации кода, ему еще предстоит пройти долгий путь в обработке крупных и сложных реальных проектов.

Перспективы на будущее

Перспективы на будущее

Выпуск SWE-Bench Mobile предоставляет важный критерий для развития инструментов AI-программирования. Он напоминает нам:

  • AI-помощь в программировании по-прежнему требует контроля со стороны человека
  • Сложные проекты требуют более интеллектуального понимания контекста
  • Возможности модели имеют большой потенциал для улучшения

Ссылки на ресурсы

Ресурсы

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修改指南:如何获得闪光传说级宠物

Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровеньTechnology

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень Мне всегда нравилась основная идея Obsidian: п...

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого годаTechnology

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прош...

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собойHealth

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой Новый...

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесьHealth

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь Март уже почти прошел, как у вас...

📝
Technology

AI Browser 24小时稳定运行指南

AI Browser 24小时稳定运行指南 Этот учебник описывает, как создать стабильную, долгосрочную среду для AI браузера. Подходит для A...