Xiaohongshu випустила SWE-Bench Mobile: чи досягає найвищий показник успішності лише 12%, коли AI Agent стикається з кодовою базою програми з сотнями мільйонів користувачів?

2/15/2026
2 min read

Xiaohongshu випустила SWE-Bench Mobile: чи досягає найвищий показник успішності лише 12%, коли AI Agent стикається з кодовою базою програми з сотнями мільйонів користувачів?

SWE-Bench Mobile

Команда Xiaohongshu випустила новий еталонний тест SWE-Bench Mobile, спеціально розроблений для оцінки продуктивності AI Agent у реальних кодових базах мобільних додатків. Результати змушують задуматися: навіть найкращі AI Agent, стикаючись із кодовою базою програми з сотнями мільйонів користувачів, мають максимальний показник успішності лише 12%.

Тестові сценарії

Що таке SWE-Bench Mobile?

Вступ до еталону

SWE-Bench Mobile — це еталонний тест для виправлення коду, орієнтований на розробку мобільних додатків. Він містить реальні завдання з виправлення помилок у мобільних додатках, які вимагають від AI Agent:

  • Розуміння складних структур коду мобільних додатків
  • Визначення першопричин проблеми
  • Створення правильного коду виправлення
  • Забезпечення того, щоб виправлення не створювало нових проблем

Результати тестування

Результати тестування

У тестуванні продуктивність кількох основних AI Agent була такою:

  • Найкраща продуктивність: 12% успішності
  • Середній рівень: 5-8% успішності
  • Деякі моделі: близькі до 0% успішності

Цей результат значно нижчий, ніж продуктивність на традиційному SWE-Bench.

Чому це так складно?

Аналіз викликів

Специфіка кодових баз мобільних додатків створює додаткові виклики:

  • Адаптація до кількох платформ: необхідно одночасно враховувати платформи iOS та Android
  • Складні залежності: високий ступінь зв'язку між модулями мобільних додатків
  • Обмеження продуктивності: мобільні пристрої мають обмежені ресурси, високі вимоги до оптимізації коду
  • Складна логіка UI: код взаємодії з інтерфейсом важко аналізувати статично

Порівняння з традиційними еталонами

Порівняльний аналіз

Порівняно з традиційним SWE-Bench, складність Mobile версії значно зросла:

  • Більший розмір кодової бази
  • Складніша бізнес-логіка
  • Важче пройти тестові випадки
  • Вищі вимоги до контекстного вікна

Галузеве значення

Галузеве значення

Цей еталонний тест показує обмеження AI Agent у реальних промислових сценаріях. Хоча AI швидко прогресує в генерації коду, йому ще належить пройти довгий шлях у обробці великих, складних реальних проєктів.

Майбутні перспективи

Майбутні перспективи

Випуск SWE-Bench Mobile надає важливий стандарт для розвитку інструментів AI-програмування. Він нагадує нам:

  • AI-допомога в програмуванні все ще потребує нагляду людини
  • Складні проєкти потребують більш інтелектуального розуміння контексту
  • Можливості моделі мають значний потенціал для покращення

Посилання на ресурси

Ресурси

Published in Technology

You Might Also Like

Рекомендації топ-10 AI інструментів 2026 року: розкриття справжнього потенціалу штучного інтелектуTechnology

Рекомендації топ-10 AI інструментів 2026 року: розкриття справжнього потенціалу штучного інтелекту

Рекомендації топ-10 AI інструментів 2026 року: розкриття справжнього потенціалу штучного інтелекту У часи швидкого розви...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 У швидко розвиваючійся сфері хмарних обчислень Amazon Web Services (AWS) завжди була лідером, пр...

2026 рік Топ 10 секретів успіху стартапів: допоможіть собі виділитися в конкуренціїTechnology

2026 рік Топ 10 секретів успіху стартапів: допоможіть собі виділитися в конкуренції

2026 рік Топ 10 секретів успіху стартапів: допоможіть собі виділитися в конкуренції У цьому швидко змінному бізнес-серед...

2026 рік Топ 10 рекомендацій AI інструментів: найкращий вибір для підвищення робочої ефективностіTechnology

2026 рік Топ 10 рекомендацій AI інструментів: найкращий вибір для підвищення робочої ефективності

2026 рік Топ 10 рекомендацій AI інструментів: найкращий вибір для підвищення робочої ефективності У час стрімкого розвит...

Кращий термінал Claude Code, ніж iTerm2, народився!Technology

Кращий термінал Claude Code, ніж iTerm2, народився!

# Кращий термінал Claude Code, ніж iTerm2, народився! Всім привіт, я Guide. Сьогодні поговоримо про кілька "сучасних те...

2026 рік Топ 10 AI інструментів програмування: найкращі помічники для підвищення ефективності розробкиTechnology

2026 рік Топ 10 AI інструментів програмування: найкращі помічники для підвищення ефективності розробки

# 2026 рік Топ 10 AI інструментів програмування: найкращі помічники для підвищення ефективності розробки З розвитком те...