Xiaohongshu llança SWE-Bench Mobile: Quan un Agent d'IA s'enfronta a una base de codi d'una App amb centenars de milions d'usuaris, la taxa d'èxit màxima és només del 12%?

2/15/2026
3 min read

Xiaohongshu llança SWE-Bench Mobile: Quan un Agent d'IA s'enfronta a una base de codi d'una App amb centenars de milions d'usuaris, la taxa d'èxit màxima és només del 12%?

SWE-Bench Mobile

L'equip de Xiaohongshu ha llançat un nou benchmark, SWE-Bench Mobile, específicament per avaluar el rendiment dels Agents d'IA en bases de codi d'aplicacions mòbils reals. Els resultats són preocupants: fins i tot els millors Agents d'IA, quan s'enfronten a la base de codi d'una App amb centenars de milions d'usuaris, tenen una taxa d'èxit màxima de només el 12%.

测试场景

Què és SWE-Bench Mobile?

基准介绍

SWE-Bench Mobile és un benchmark per a la reparació de codi en el desenvolupament d'aplicacions mòbils. Conté tasques reals de reparació d'errors d'aplicacions mòbils, que requereixen que l'Agent d'IA sigui capaç de:

  • Entendre l'estructura complexa del codi de l'aplicació mòbil
  • Localitzar l'arrel del problema
  • Generar el codi de reparació correcte
  • Assegurar-se que la reparació no introdueix nous problemes

Resultats de les proves

测试结果

En les proves, el rendiment de diversos Agents d'IA principals va ser el següent:

  • Millor rendiment: 12% de taxa d'èxit
  • Nivell mitjà: 5-8% de taxa d'èxit
  • Alguns models: Prop del 0% de taxa d'èxit

Aquest resultat és molt inferior al rendiment en el SWE-Bench tradicional.

Per què és tan difícil?

挑战分析

L'especificitat de les bases de codi d'aplicacions mòbils comporta reptes addicionals:

  • Adaptació multi-plataforma: Cal tenir en compte simultàniament les plataformes iOS i Android
  • Relacions de dependència complexes: L'acoblament entre mòduls d'aplicacions mòbils és alt
  • Restriccions de rendiment: Els dispositius mòbils tenen recursos limitats, els requisits d'optimització del codi són elevats
  • Lògica d'UI complexa: El codi d'interacció de la interfície és difícil d'analitzar estàticament

Comparació amb els benchmarks tradicionals

对比分析

En comparació amb el SWE-Bench tradicional, la dificultat de la versió Mobile augmenta significativament:

  • La mida de la base de codi és més gran
  • La lògica de negoci és més complexa
  • Els casos de prova són més difícils de superar
  • Els requisits de la finestra de context són més elevats

Significat per a la indústria

行业意义

Aquest benchmark revela les limitacions dels Agents d'IA en escenaris industrials reals. Tot i que la IA ha progressat ràpidament en la generació de codi, encara hi ha un llarg camí per recórrer quan es tracta de gestionar projectes reals grans i complexos.

Perspectives de futur

未来展望

El llançament de SWE-Bench Mobile proporciona un estàndard de mesura important per al desenvolupament d'eines de programació d'IA. Ens recorda que:

  • La programació assistida per IA encara necessita supervisió humana
  • Els projectes complexos necessiten una comprensió del context més intel·ligent
  • La capacitat del model encara té molt marge de millora

Enllaços de recursos

资源

Published in Technology

You Might Also Like