Xiaohongshu llança SWE-Bench Mobile: Quan un Agent d'IA s'enfronta a una base de codi d'una App amb centenars de milions d'usuaris, la taxa d'èxit màxima és només del 12%?

SWE-Bench Mobile

L'equip de Xiaohongshu ha llançat un nou benchmark, SWE-Bench Mobile, específicament per avaluar el rendiment dels Agents d'IA en bases de codi d'aplicacions mòbils reals. Els resultats són preocupants: fins i tot els millors Agents d'IA, quan s'enfronten a la base de codi d'una App amb centenars de milions d'usuaris, tenen una taxa d'èxit màxima de només el 12%.

测试场景

Què és SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile és un benchmark per a la reparació de codi en el desenvolupament d'aplicacions mòbils. Conté tasques reals de reparació d'errors d'aplicacions mòbils, que requereixen que l'Agent d'IA sigui capaç de:

Entendre l'estructura complexa del codi de l'aplicació mòbil
Localitzar l'arrel del problema
Generar el codi de reparació correcte
Assegurar-se que la reparació no introdueix nous problemes

Resultats de les proves

测试结果

En les proves, el rendiment de diversos Agents d'IA principals va ser el següent:

Millor rendiment: 12% de taxa d'èxit
Nivell mitjà: 5-8% de taxa d'èxit
Alguns models: Prop del 0% de taxa d'èxit

Aquest resultat és molt inferior al rendiment en el SWE-Bench tradicional.

Per què és tan difícil?

挑战分析

L'especificitat de les bases de codi d'aplicacions mòbils comporta reptes addicionals:

Adaptació multi-plataforma: Cal tenir en compte simultàniament les plataformes iOS i Android
Relacions de dependència complexes: L'acoblament entre mòduls d'aplicacions mòbils és alt
Restriccions de rendiment: Els dispositius mòbils tenen recursos limitats, els requisits d'optimització del codi són elevats
Lògica d'UI complexa: El codi d'interacció de la interfície és difícil d'analitzar estàticament

Comparació amb els benchmarks tradicionals

对比分析

En comparació amb el SWE-Bench tradicional, la dificultat de la versió Mobile augmenta significativament:

La mida de la base de codi és més gran
La lògica de negoci és més complexa
Els casos de prova són més difícils de superar
Els requisits de la finestra de context són més elevats

Significat per a la indústria

行业意义

Aquest benchmark revela les limitacions dels Agents d'IA en escenaris industrials reals. Tot i que la IA ha progressat ràpidament en la generació de codi, encara hi ha un llarg camí per recórrer quan es tracta de gestionar projectes reals grans i complexos.

Perspectives de futur

未来展望

El llançament de SWE-Bench Mobile proporciona un estàndard de mesura important per al desenvolupament d'eines de programació d'IA. Ens recorda que:

La programació assistida per IA encara necessita supervisió humana
Els projectes complexos necessiten una comprensió del context més intel·ligent
La capacitat del model encara té molt marge de millora

Enllaços de recursos

Paper: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu llança SWE-Bench Mobile: Quan un Agent d'IA s'enfronta a una base de codi d'una App amb centenars de milions d'usuaris, la taxa d'èxit màxima és només del 12%?

Xiaohongshu llança SWE-Bench Mobile: Quan un Agent d'IA s'enfronta a una base de codi d'una App amb centenars de milions d'usuaris, la taxa d'èxit màxima és només del 12%?

Què és SWE-Bench Mobile?

Resultats de les proves

Per què és tan difícil?

Comparació amb els benchmarks tradicionals

Significat per a la indústria

Perspectives de futur

Enllaços de recursos

You Might Also Like

Guia de modificació de Claude Code Buddy: com obtenir mascotes de llegenda brillants

Obsidian llança Defuddle, portant Obsidian Web Clipper a un nou nivell

OpenAI de sobte anuncia "tres en un": fusió de navegador + programació + ChatGPT, reconeixent que han comès errors durant l'últim any

2026, no et forcis a ser 'autònom'! Fes aquestes 8 petites coses, la salut vindrà de manera natural

Aquells pares que es dediquen a perdre pes i no ho aconsegueixen, segurament fallen aquí

Guia per a l'execució estable de l'AI Browser durant 24 hores