Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?

2/15/2026
2 min read

Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?

SWE-Bench Mobile

Xiaohongshu командасы AI Agent-тің нақты мобильді қосымша код базасындағы өнімділігін бағалауға арналған жаңа SWE-Bench Mobile эталонын жариялады. Нәтижелер ойландырады: тіпті ең үздік AI Agent-тің өзі миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% құрайды.

Тестілеу сценарийі

SWE-Bench Mobile дегеніміз не?

Эталонды таныстыру

SWE-Bench Mobile - мобильді қосымшаларды әзірлеуге арналған кодты түзету эталоны. Ол нақты мобильді қосымшалардың қателерді түзету тапсырмаларын қамтиды, бұл AI Agent-тен келесіні талап етеді:

  • Күрделі мобильді қосымша кодының құрылымын түсіну
  • Мәселенің түпкі себебін анықтау
  • Дұрыс түзету кодын жасау
  • Түзетудің жаңа мәселелерді тудырмауын қамтамасыз ету

Тестілеу нәтижелері

Тестілеу нәтижелері

Тестілеуде бірнеше негізгі AI Agent-тің өнімділігі келесідей болды:

  • Ең жақсы өнімділік: 12% өту жылдамдығы
  • Орташа деңгей: 5-8% өту жылдамдығы
  • Кейбір модельдер: 0%-ға жақын өту жылдамдығы

Бұл нәтиже дәстүрлі SWE-Bench-тегі өнімділіктен әлдеқайда төмен.

Неліктен бұл соншалықты қиын?

Тақырыптық талдау

Мобильді қосымша кодының ерекшелігі қосымша қиындықтар тудырады:

  • Көп терминалды бейімдеу: iOS және Android платформаларын бір уақытта қарастыру қажет
  • Күрделі тәуелділіктер: Мобильді қосымшалардың модульдері арасындағы байланыс жоғары
  • Өнімділік шектеулері: Мобильді құрылғылардың ресурстары шектеулі, кодты оңтайландыру талаптары жоғары
  • UI логикасы күрделі: Интерфейспен өзара әрекеттесу кодын статикалық талдау қиын

Дәстүрлі эталондармен салыстыру

Салыстырмалы талдау

Дәстүрлі SWE-Bench-пен салыстырғанда, Mobile нұсқасының қиындығы айтарлықтай артты:

  • Код базасының көлемі үлкенірек
  • Бизнес логикасы күрделірек
  • Тестілеу жағдайларынан өту қиынырақ
  • Контексттік терезеге қойылатын талаптар жоғарырақ

Салалық маңызы

Салалық маңызы

Бұл эталон AI Agent-тің нақты өнеркәсіптік сценарийлердегі шектеулерін көрсетеді. AI код жасауда жылдам жетістіктерге жеткенімен, үлкен, күрделі нақты жобаларды өңдеуде әлі де ұзақ жол бар.

Болашаққа көзқарас

Болашаққа көзқарас

SWE-Bench Mobile шығарылымы AI бағдарламалау құралдарын дамыту үшін маңызды өлшем ұсынады. Бұл бізге ескертеді:

  • AI көмегімен бағдарламалау әлі де адамның бақылауын қажет етеді
  • Күрделі жобалар контекстің ақылдырақ түсіндірілуін қажет етеді
  • Модельдің мүмкіндіктерін жақсартуға әлі де көп орын бар

Ресурстар сілтемелері

Ресурстар

Published in Technology

You Might Also Like

2026 жыл: Топ 10 AI құралдары ұсынысы: Жасанды интеллектінің шынайы әлеуетін ашуTechnology

2026 жыл: Топ 10 AI құралдары ұсынысы: Жасанды интеллектінің шынайы әлеуетін ашу

2026 жыл: Топ 10 AI құралдары ұсынысы: Жасанды интеллектінің шынайы әлеуетін ашу Технологияның жылдам дамып жатқан бүгін...

2026 жылғы AWS құралдары мен ресурстарының 10 үздігіTechnology

2026 жылғы AWS құралдары мен ресурстарының 10 үздігі

2026 жылғы AWS құралдары мен ресурстарының 10 үздігі Жылдам дамып келе жатқан бұлтты есептеу саласында Amazon Web Servic...

2026 жыл: Топ 10 стартаптың табыс құпиялары: бәсекеде көзге түсуіңізге көмектеседіTechnology

2026 жыл: Топ 10 стартаптың табыс құпиялары: бәсекеде көзге түсуіңізге көмектеседі

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

2026 жылғы Топ 10 AI құралдары: Жұмыс тиімділігін арттырудың ең жақсы таңдауыTechnology

2026 жылғы Топ 10 AI құралдары: Жұмыс тиімділігін арттырудың ең жақсы таңдауы

2026 жылғы Топ 10 AI құралдары: Жұмыс тиімділігін арттырудың ең жақсы таңдауы Бүгінгі таңда жасанды интеллекттің қарқынд...

iTerm2-ден жақсы Claude Code терминалы дүниеге келді!Technology

iTerm2-ден жақсы Claude Code терминалы дүниеге келді!

# iTerm2-ден жақсы Claude Code терминалы дүниеге келді! Баршаңызға сәлем, мен Guide. Бүгін сіздермен соңғы екі жылда өт...

2026 жыл: AI бағдарламалау құралдарының 10 үздігі: Даму тиімділігін арттырудың ең жақсы көмекшісіTechnology

2026 жыл: AI бағдарламалау құралдарының 10 үздігі: Даму тиімділігін арттырудың ең жақсы көмекшісі

# 2026 жыл: AI бағдарламалау құралдарының 10 үздігі: Даму тиімділігін арттырудың ең жақсы көмекшісі Жасанды интеллект т...