Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?

SWE-Bench Mobile

Xiaohongshu командасы AI Agent-тің нақты мобильді қосымша код базасындағы өнімділігін бағалауға арналған жаңа SWE-Bench Mobile эталонын жариялады. Нәтижелер ойландырады: тіпті ең үздік AI Agent-тің өзі миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% құрайды.

Тестілеу сценарийі

SWE-Bench Mobile дегеніміз не?

Эталонды таныстыру

SWE-Bench Mobile - мобильді қосымшаларды әзірлеуге арналған кодты түзету эталоны. Ол нақты мобильді қосымшалардың қателерді түзету тапсырмаларын қамтиды, бұл AI Agent-тен келесіні талап етеді:

Күрделі мобильді қосымша кодының құрылымын түсіну
Мәселенің түпкі себебін анықтау
Дұрыс түзету кодын жасау
Түзетудің жаңа мәселелерді тудырмауын қамтамасыз ету

Тестілеу нәтижелері

Тестілеуде бірнеше негізгі AI Agent-тің өнімділігі келесідей болды:

Ең жақсы өнімділік: 12% өту жылдамдығы
Орташа деңгей: 5-8% өту жылдамдығы
Кейбір модельдер: 0%-ға жақын өту жылдамдығы

Бұл нәтиже дәстүрлі SWE-Bench-тегі өнімділіктен әлдеқайда төмен.

Неліктен бұл соншалықты қиын?

Тақырыптық талдау

Мобильді қосымша кодының ерекшелігі қосымша қиындықтар тудырады:

Көп терминалды бейімдеу: iOS және Android платформаларын бір уақытта қарастыру қажет
Күрделі тәуелділіктер: Мобильді қосымшалардың модульдері арасындағы байланыс жоғары
Өнімділік шектеулері: Мобильді құрылғылардың ресурстары шектеулі, кодты оңтайландыру талаптары жоғары
UI логикасы күрделі: Интерфейспен өзара әрекеттесу кодын статикалық талдау қиын

Дәстүрлі эталондармен салыстыру

Салыстырмалы талдау

Дәстүрлі SWE-Bench-пен салыстырғанда, Mobile нұсқасының қиындығы айтарлықтай артты:

Код базасының көлемі үлкенірек
Бизнес логикасы күрделірек
Тестілеу жағдайларынан өту қиынырақ
Контексттік терезеге қойылатын талаптар жоғарырақ

Салалық маңызы

Бұл эталон AI Agent-тің нақты өнеркәсіптік сценарийлердегі шектеулерін көрсетеді. AI код жасауда жылдам жетістіктерге жеткенімен, үлкен, күрделі нақты жобаларды өңдеуде әлі де ұзақ жол бар.

Болашаққа көзқарас

SWE-Bench Mobile шығарылымы AI бағдарламалау құралдарын дамыту үшін маңызды өлшем ұсынады. Бұл бізге ескертеді:

AI көмегімен бағдарламалау әлі де адамның бақылауын қажет етеді
Күрделі жобалар контекстің ақылдырақ түсіндірілуін қажет етеді
Модельдің мүмкіндіктерін жақсартуға әлі де көп орын бар

Ресурстар сілтемелері

Ресурстар

Мақала: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?

Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?

SWE-Bench Mobile дегеніміз не?

Тестілеу нәтижелері

Неліктен бұл соншалықты қиын?

Дәстүрлі эталондармен салыстыру

Салалық маңызы

Болашаққа көзқарас

Ресурстар сілтемелері

You Might Also Like

Claude Code Buddy өзгерту нұсқаулығы: қалай жарқыраған аңыз деңгейіндегі питомец алуға болады

Obsidian Defuddle-ды шығарды, Obsidian Web Clipper-ді жаңа деңгейге көтерді

OpenAI кенеттен "үш бірлікті" жариялады: браузер + бағдарламалау + ChatGPT бірігуі, ішкі деңгейде өткен жылы қателескенін мойындады

2026, өзіңізді "тәртіпке" мәжбүрлемеңіз! Бұл 8 кішігірім істі орындаңыз, денсаулық өздігінен келеді

Салмақ тастауға тырысқан, бірақ арықтай алмай жүрген аналар, мүлдем осында құлайды

AI Browser 24 сағат тұрақты жұмыс істеу нұсқаулығы