Xiaohongshu выпустила SWE-Bench Mobile: когда AI Agent сталкивается с кодовой базой приложения с сотнями миллионов пользователей, максимальный процент успешных решений составляет всего 12%?

2/15/2026
2 min read

Xiaohongshu выпустила SWE-Bench Mobile: когда AI Agent сталкивается с кодовой базой приложения с сотнями миллионов пользователей, максимальный процент успешных решений составляет всего 12%?

SWE-Bench Mobile

Команда Xiaohongshu выпустила новый бенчмарк SWE-Bench Mobile, специально разработанный для оценки производительности AI Agent на реальных кодовых базах мобильных приложений. Результаты заставляют задуматься: даже лучшие AI Agent, сталкиваясь с кодовой базой приложения с сотнями миллионов пользователей, показывают максимальный процент успешных решений всего 12%.

Тестовые сценарии

Что такое SWE-Bench Mobile?

Описание бенчмарка

SWE-Bench Mobile — это бенчмарк для исправления кода, предназначенный для разработки мобильных приложений. Он включает в себя реальные задачи по исправлению ошибок в мобильных приложениях, требующие от AI Agent:

  • Понимания сложной структуры кода мобильного приложения
  • Локализации первопричины проблемы
  • Генерации правильного кода исправления
  • Обеспечения того, чтобы исправление не приводило к новым проблемам

Результаты тестирования

Результаты тестирования

В ходе тестирования несколько основных AI Agent показали следующие результаты:

  • Лучший результат: 12% успешных решений
  • Средний уровень: 5-8% успешных решений
  • Некоторые модели: около 0% успешных решений

Этот результат значительно ниже, чем производительность на традиционном SWE-Bench.

Почему это так сложно?

Анализ проблем

Специфика кодовой базы мобильных приложений создает дополнительные проблемы:

  • Адаптация к нескольким платформам: необходимо учитывать платформы iOS и Android одновременно
  • Сложные зависимости: высокая степень связанности между модулями мобильного приложения
  • Ограничения производительности: мобильные устройства имеют ограниченные ресурсы, высокие требования к оптимизации кода
  • Сложная UI-логика: код взаимодействия с интерфейсом сложно анализировать статически

Сравнение с традиционными бенчмарками

Сравнительный анализ

По сравнению с традиционным SWE-Bench, сложность Mobile-версии значительно возросла:

  • Больший размер кодовой базы
  • Более сложная бизнес-логика
  • Сложнее пройти тестовые примеры
  • Более высокие требования к контекстному окну

Значение для отрасли

Значение для отрасли

Этот бенчмарк показывает ограничения AI Agent в реальных промышленных сценариях. Хотя AI быстро прогрессирует в генерации кода, ему еще предстоит пройти долгий путь в обработке крупных и сложных реальных проектов.

Перспективы на будущее

Перспективы на будущее

Выпуск SWE-Bench Mobile предоставляет важный критерий для развития инструментов AI-программирования. Он напоминает нам:

  • AI-помощь в программировании по-прежнему требует контроля со стороны человека
  • Сложные проекты требуют более интеллектуального понимания контекста
  • Возможности модели имеют большой потенциал для улучшения

Ссылки на ресурсы

Ресурсы

Published in Technology

You Might Also Like

Рекомендации по 10 лучшим инструментам ИИ на 2026 год: раскрытие истинного потенциала искусственного интеллектаTechnology

Рекомендации по 10 лучшим инструментам ИИ на 2026 год: раскрытие истинного потенциала искусственного интеллекта

Рекомендации по 10 лучшим инструментам ИИ на 2026 год: раскрытие истинного потенциала искусственного интеллекта В эпоху ...

Топ 10 инструментов и ресурсов AWS на 2026 годTechnology

Топ 10 инструментов и ресурсов AWS на 2026 год

Топ 10 инструментов и ресурсов AWS на 2026 год В быстро развивающейся области облачных вычислений Amazon Web Services (A...

10 секретов успеха стартапов 2026 года: как выделиться в конкурентной средеTechnology

10 секретов успеха стартапов 2026 года: как выделиться в конкурентной среде

10 секретов успеха стартапов 2026 года: как выделиться в конкурентной среде В этой быстро меняющейся бизнес-среде старта...

Рекомендации по 10 лучшим AI инструментам 2026 года: лучшие выборы для повышения рабочей эффективностиTechnology

Рекомендации по 10 лучшим AI инструментам 2026 года: лучшие выборы для повышения рабочей эффективности

Рекомендации по 10 лучшим AI инструментам 2026 года: лучшие выборы для повышения рабочей эффективности В эпоху стремител...

Лучший терминал Claude Code, чем iTerm2!Technology

Лучший терминал Claude Code, чем iTerm2!

# Лучший терминал Claude Code, чем iTerm2! Здравствуйте, я Гид. Сегодня я расскажу вам о нескольких "современных термин...

Рекомендации по 10 лучшим инструментам AI для программирования в 2026 году: лучшие помощники для повышения эффективности разработкиTechnology

Рекомендации по 10 лучшим инструментам AI для программирования в 2026 году: лучшие помощники для повышения эффективности разработки

# Рекомендации по 10 лучшим инструментам AI для программирования в 2026 году: лучшие помощники для повышения эффективнос...