Xiaohongshu llança SWE-Bench Mobile: Quan un Agent d'IA s'enfronta a una base de codi d'una App amb centenars de milions d'usuaris, la taxa d'èxit màxima és només del 12%?
Xiaohongshu llança SWE-Bench Mobile: Quan un Agent d'IA s'enfronta a una base de codi d'una App amb centenars de milions d'usuaris, la taxa d'èxit màxima és només del 12%?

L'equip de Xiaohongshu ha llançat un nou benchmark, SWE-Bench Mobile, específicament per avaluar el rendiment dels Agents d'IA en bases de codi d'aplicacions mòbils reals. Els resultats són preocupants: fins i tot els millors Agents d'IA, quan s'enfronten a la base de codi d'una App amb centenars de milions d'usuaris, tenen una taxa d'èxit màxima de només el 12%.

Què és SWE-Bench Mobile?

SWE-Bench Mobile és un benchmark per a la reparació de codi en el desenvolupament d'aplicacions mòbils. Conté tasques reals de reparació d'errors d'aplicacions mòbils, que requereixen que l'Agent d'IA sigui capaç de:
- Entendre l'estructura complexa del codi de l'aplicació mòbil
- Localitzar l'arrel del problema
- Generar el codi de reparació correcte
- Assegurar-se que la reparació no introdueix nous problemes
Resultats de les proves

En les proves, el rendiment de diversos Agents d'IA principals va ser el següent:
- Millor rendiment: 12% de taxa d'èxit
- Nivell mitjà: 5-8% de taxa d'èxit
- Alguns models: Prop del 0% de taxa d'èxit
Aquest resultat és molt inferior al rendiment en el SWE-Bench tradicional.
Per què és tan difícil?

L'especificitat de les bases de codi d'aplicacions mòbils comporta reptes addicionals:
- Adaptació multi-plataforma: Cal tenir en compte simultàniament les plataformes iOS i Android
- Relacions de dependència complexes: L'acoblament entre mòduls d'aplicacions mòbils és alt
- Restriccions de rendiment: Els dispositius mòbils tenen recursos limitats, els requisits d'optimització del codi són elevats
- Lògica d'UI complexa: El codi d'interacció de la interfície és difícil d'analitzar estàticament
Comparació amb els benchmarks tradicionals

En comparació amb el SWE-Bench tradicional, la dificultat de la versió Mobile augmenta significativament:
- La mida de la base de codi és més gran
- La lògica de negoci és més complexa
- Els casos de prova són més difícils de superar
- Els requisits de la finestra de context són més elevats
Significat per a la indústria

Aquest benchmark revela les limitacions dels Agents d'IA en escenaris industrials reals. Tot i que la IA ha progressat ràpidament en la generació de codi, encara hi ha un llarg camí per recórrer quan es tracta de gestionar projectes reals grans i complexos.
Perspectives de futur

El llançament de SWE-Bench Mobile proporciona un estàndard de mesura important per al desenvolupament d'eines de programació d'IA. Ens recorda que:
- La programació assistida per IA encara necessita supervisió humana
- Els projectes complexos necessiten una comprensió del context més intel·ligent
- La capacitat del model encara té molt marge de millora
Enllaços de recursos






