Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?
Xiaohongshu SWE-Bench Mobile жариялады: AI Agent миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% па?

Xiaohongshu командасы AI Agent-тің нақты мобильді қосымша код базасындағы өнімділігін бағалауға арналған жаңа SWE-Bench Mobile эталонын жариялады. Нәтижелер ойландырады: тіпті ең үздік AI Agent-тің өзі миллиардтаған пайдаланушысы бар App код базасымен бетпе-бет келгенде, ең жоғары өту жылдамдығы небәрі 12% құрайды.

SWE-Bench Mobile дегеніміз не?

SWE-Bench Mobile - мобильді қосымшаларды әзірлеуге арналған кодты түзету эталоны. Ол нақты мобильді қосымшалардың қателерді түзету тапсырмаларын қамтиды, бұл AI Agent-тен келесіні талап етеді:
- Күрделі мобильді қосымша кодының құрылымын түсіну
- Мәселенің түпкі себебін анықтау
- Дұрыс түзету кодын жасау
- Түзетудің жаңа мәселелерді тудырмауын қамтамасыз ету
Тестілеу нәтижелері

Тестілеуде бірнеше негізгі AI Agent-тің өнімділігі келесідей болды:
- Ең жақсы өнімділік: 12% өту жылдамдығы
- Орташа деңгей: 5-8% өту жылдамдығы
- Кейбір модельдер: 0%-ға жақын өту жылдамдығы
Бұл нәтиже дәстүрлі SWE-Bench-тегі өнімділіктен әлдеқайда төмен.
Неліктен бұл соншалықты қиын?

Мобильді қосымша кодының ерекшелігі қосымша қиындықтар тудырады:
- Көп терминалды бейімдеу: iOS және Android платформаларын бір уақытта қарастыру қажет
- Күрделі тәуелділіктер: Мобильді қосымшалардың модульдері арасындағы байланыс жоғары
- Өнімділік шектеулері: Мобильді құрылғылардың ресурстары шектеулі, кодты оңтайландыру талаптары жоғары
- UI логикасы күрделі: Интерфейспен өзара әрекеттесу кодын статикалық талдау қиын
Дәстүрлі эталондармен салыстыру

Дәстүрлі SWE-Bench-пен салыстырғанда, Mobile нұсқасының қиындығы айтарлықтай артты:
- Код базасының көлемі үлкенірек
- Бизнес логикасы күрделірек
- Тестілеу жағдайларынан өту қиынырақ
- Контексттік терезеге қойылатын талаптар жоғарырақ
Салалық маңызы

Бұл эталон AI Agent-тің нақты өнеркәсіптік сценарийлердегі шектеулерін көрсетеді. AI код жасауда жылдам жетістіктерге жеткенімен, үлкен, күрделі нақты жобаларды өңдеуде әлі де ұзақ жол бар.
Болашаққа көзқарас

SWE-Bench Mobile шығарылымы AI бағдарламалау құралдарын дамыту үшін маңызды өлшем ұсынады. Бұл бізге ескертеді:
- AI көмегімен бағдарламалау әлі де адамның бақылауын қажет етеді
- Күрделі жобалар контекстің ақылдырақ түсіндірілуін қажет етеді
- Модельдің мүмкіндіктерін жақсартуға әлі де көп орын бар
Ресурстар сілтемелері






