Xiaohongshu випустила SWE-Bench Mobile: чи досягає найвищий показник успішності лише 12%, коли AI Agent стикається з кодовою базою програми з сотнями мільйонів користувачів?

2/15/2026
2 min read

Xiaohongshu випустила SWE-Bench Mobile: чи досягає найвищий показник успішності лише 12%, коли AI Agent стикається з кодовою базою програми з сотнями мільйонів користувачів?

SWE-Bench Mobile

Команда Xiaohongshu випустила новий еталонний тест SWE-Bench Mobile, спеціально розроблений для оцінки продуктивності AI Agent у реальних кодових базах мобільних додатків. Результати змушують задуматися: навіть найкращі AI Agent, стикаючись із кодовою базою програми з сотнями мільйонів користувачів, мають максимальний показник успішності лише 12%.

Тестові сценарії

Що таке SWE-Bench Mobile?

Вступ до еталону

SWE-Bench Mobile — це еталонний тест для виправлення коду, орієнтований на розробку мобільних додатків. Він містить реальні завдання з виправлення помилок у мобільних додатках, які вимагають від AI Agent:

  • Розуміння складних структур коду мобільних додатків
  • Визначення першопричин проблеми
  • Створення правильного коду виправлення
  • Забезпечення того, щоб виправлення не створювало нових проблем

Результати тестування

Результати тестування

У тестуванні продуктивність кількох основних AI Agent була такою:

  • Найкраща продуктивність: 12% успішності
  • Середній рівень: 5-8% успішності
  • Деякі моделі: близькі до 0% успішності

Цей результат значно нижчий, ніж продуктивність на традиційному SWE-Bench.

Чому це так складно?

Аналіз викликів

Специфіка кодових баз мобільних додатків створює додаткові виклики:

  • Адаптація до кількох платформ: необхідно одночасно враховувати платформи iOS та Android
  • Складні залежності: високий ступінь зв'язку між модулями мобільних додатків
  • Обмеження продуктивності: мобільні пристрої мають обмежені ресурси, високі вимоги до оптимізації коду
  • Складна логіка UI: код взаємодії з інтерфейсом важко аналізувати статично

Порівняння з традиційними еталонами

Порівняльний аналіз

Порівняно з традиційним SWE-Bench, складність Mobile версії значно зросла:

  • Більший розмір кодової бази
  • Складніша бізнес-логіка
  • Важче пройти тестові випадки
  • Вищі вимоги до контекстного вікна

Галузеве значення

Галузеве значення

Цей еталонний тест показує обмеження AI Agent у реальних промислових сценаріях. Хоча AI швидко прогресує в генерації коду, йому ще належить пройти довгий шлях у обробці великих, складних реальних проєктів.

Майбутні перспективи

Майбутні перспективи

Випуск SWE-Bench Mobile надає важливий стандарт для розвитку інструментів AI-програмування. Він нагадує нам:

  • AI-допомога в програмуванні все ще потребує нагляду людини
  • Складні проєкти потребують більш інтелектуального розуміння контексту
  • Можливості моделі мають значний потенціал для покращення

Посилання на ресурси

Ресурси

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця

Claude Code Buddy зміни: як отримати блискучого легендарного улюбленця 1 квітня 2026 року, Anthropic тихо запустила функ...

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівеньTechnology

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень

Obsidian випустив Defuddle, піднявши Obsidian Web Clipper на новий рівень Я завжди любив основну ідею Obsidian: локальн...

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого рокуTechnology

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок минулого року

OpenAI раптово оголосила про "три в одному": об'єднання браузера, програмування та ChatGPT, внутрішнє визнання помилок м...

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природноHealth

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно

2026, більше не змушуйте себе "дисциплінуватися"! Зробіть ці 8 простих справ, і здоров'я прийде природно Новий рік почи...

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюдиHealth

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди

Ті мами, які намагаються схуднути, але не можуть, безумовно, потрапляють сюди Травень вже минув, як ваш план схуднення?...

📝
Technology

AI Browser 24 години стабільної роботи: посібник

AI Browser 24 години стабільної роботи: посібник Цей посібник описує, як налаштувати стабільне, тривале середовище для A...