Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?

2/15/2026
2 min read

Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?

SWE-Bench Mobile

Xiaohongshu командасы AI Agent-тің нақты мобильді қосымша код базасындағы өнімділігін бағалауға арналған жаңа SWE-Bench Mobile эталонын жариялады. Нәтижелер ойландырады: тіпті ең үздік AI Agent-тің өзі миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% құрайды.

Тестілеу сценарийі

SWE-Bench Mobile дегеніміз не?

Эталонды таныстыру

SWE-Bench Mobile - мобильді қосымшаларды әзірлеуге арналған кодты түзету эталоны. Ол нақты мобильді қосымшалардың қателерді түзету тапсырмаларын қамтиды, бұл AI Agent-тен келесіні талап етеді:

  • Күрделі мобильді қосымша кодының құрылымын түсіну
  • Мәселенің түпкі себебін анықтау
  • Дұрыс түзету кодын жасау
  • Түзетудің жаңа мәселелерді тудырмауын қамтамасыз ету

Тестілеу нәтижелері

Тестілеу нәтижелері

Тестілеуде бірнеше негізгі AI Agent-тің өнімділігі келесідей болды:

  • Ең жақсы өнімділік: 12% өту жылдамдығы
  • Орташа деңгей: 5-8% өту жылдамдығы
  • Кейбір модельдер: 0%-ға жақын өту жылдамдығы

Бұл нәтиже дәстүрлі SWE-Bench-тегі өнімділіктен әлдеқайда төмен.

Неліктен бұл соншалықты қиын?

Тақырыптық талдау

Мобильді қосымша кодының ерекшелігі қосымша қиындықтар тудырады:

  • Көп терминалды бейімдеу: iOS және Android платформаларын бір уақытта қарастыру қажет
  • Күрделі тәуелділіктер: Мобильді қосымшалардың модульдері арасындағы байланыс жоғары
  • Өнімділік шектеулері: Мобильді құрылғылардың ресурстары шектеулі, кодты оңтайландыру талаптары жоғары
  • UI логикасы күрделі: Интерфейспен өзара әрекеттесу кодын статикалық талдау қиын

Дәстүрлі эталондармен салыстыру

Салыстырмалы талдау

Дәстүрлі SWE-Bench-пен салыстырғанда, Mobile нұсқасының қиындығы айтарлықтай артты:

  • Код базасының көлемі үлкенірек
  • Бизнес логикасы күрделірек
  • Тестілеу жағдайларынан өту қиынырақ
  • Контексттік терезеге қойылатын талаптар жоғарырақ

Салалық маңызы

Салалық маңызы

Бұл эталон AI Agent-тің нақты өнеркәсіптік сценарийлердегі шектеулерін көрсетеді. AI код жасауда жылдам жетістіктерге жеткенімен, үлкен, күрделі нақты жобаларды өңдеуде әлі де ұзақ жол бар.

Болашаққа көзқарас

Болашаққа көзқарас

SWE-Bench Mobile шығарылымы AI бағдарламалау құралдарын дамыту үшін маңызды өлшем ұсынады. Бұл бізге ескертеді:

  • AI көмегімен бағдарламалау әлі де адамның бақылауын қажет етеді
  • Күрделі жобалар контекстің ақылдырақ түсіндірілуін қажет етеді
  • Модельдің мүмкіндіктерін жақсартуға әлі де көп орын бар

Ресурстар сілтемелері

Ресурстар

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy өзгерту нұсқаулығы: қалай жарқыраған аңыз деңгейіндегі питомец алуға болады

Claude Code Buddy өзгерту нұсқаулығы: қалай жарқыраған аңыз деңгейіндегі питомец алуға болады 2026 жылдың 1 сәуірінде, A...

Obsidian Defuddle-ды шығарды, Obsidian Web Clipper-ді жаңа деңгейге көтердіTechnology

Obsidian Defuddle-ды шығарды, Obsidian Web Clipper-ді жаңа деңгейге көтерді

Obsidian Defuddle-ды шығарды, Obsidian Web Clipper-ді жаңа деңгейге көтерді Мен Obsidian-ның негізгі идеясын әрқашан ұн...

OpenAI кенеттен "үш бірлікті" жариялады: браузер + бағдарламалау + ChatGPT бірігуі, ішкі деңгейде өткен жылы қателескенін мойындадыTechnology

OpenAI кенеттен "үш бірлікті" жариялады: браузер + бағдарламалау + ChatGPT бірігуі, ішкі деңгейде өткен жылы қателескенін мойындады

OpenAI кенеттен "үш бірлікті" жариялады: браузер + бағдарламалау + ChatGPT бірігуі, ішкі деңгейде өткен жылы қателескені...

2026, өзіңізді "тәртіпке" мәжбүрлемеңіз! Бұл 8 кішігірім істі орындаңыз, денсаулық өздігінен келедіHealth

2026, өзіңізді "тәртіпке" мәжбүрлемеңіз! Бұл 8 кішігірім істі орындаңыз, денсаулық өздігінен келеді

2026, өзіңізді "тәртіпке" мәжбүрлемеңіз! Бұл 8 кішігірім істі орындаңыз, денсаулық өздігінен келеді Жаңа жыл басталды, ...

Салмақ тастауға тырысқан, бірақ арықтай алмай жүрген аналар, мүлдем осында құлайдыHealth

Салмақ тастауға тырысқан, бірақ арықтай алмай жүрген аналар, мүлдем осында құлайды

[[HTMLPLACEHOLDER0]] Наурыздың жартысы өтті, сенің салмақ тастау жоспарың қалай? Арықтадың ба? Неше килограмм арықтадың...

📝
Technology

AI Browser 24 сағат тұрақты жұмыс істеу нұсқаулығы

AI Browser 24 сағат тұрақты жұмыс істеу нұсқаулығы Бұл нұсқаулық тұрақты, ұзақ мерзімді AI браузер ортасын қалай құруды ...