XiaoHongShu lance SWE-Bench Mobile : Quand un agent IA fait face à une base de code d'application avec des centaines de millions d'utilisateurs, le taux de réussite maximal n'est que de 12 % ?

2/15/2026
3 min read

XiaoHongShu lance SWE-Bench Mobile : Quand un agent IA fait face à une base de code d'application avec des centaines de millions d'utilisateurs, le taux de réussite maximal n'est que de 12 % ?

SWE-Bench Mobile

L'équipe de XiaoHongShu a publié un nouveau test de référence, SWE-Bench Mobile, spécialement conçu pour évaluer les performances des agents IA sur des bases de code d'applications mobiles réelles. Les résultats donnent à réfléchir : même les meilleurs agents IA n'atteignent qu'un taux de réussite maximal de 12 % lorsqu'ils sont confrontés à la base de code d'une application utilisée par des centaines de millions d'utilisateurs.

Test Scenarios

Qu'est-ce que SWE-Bench Mobile ?

Présentation du test de référence

SWE-Bench Mobile est un test de référence pour la correction de code dans le développement d'applications mobiles. Il comprend des tâches réelles de correction de bugs d'applications mobiles, exigeant que l'agent IA soit capable de :

  • Comprendre la structure complexe du code d'une application mobile
  • Localiser la cause profonde des problèmes
  • Générer le code de correction correct
  • S'assurer que la correction n'introduit pas de nouveaux problèmes

Résultats des tests

Résultats des tests

Lors des tests, les performances de plusieurs agents IA courants ont été les suivantes :

  • Meilleure performance : taux de réussite de 12 %
  • Niveau moyen : taux de réussite de 5 à 8 %
  • Certains modèles : taux de réussite proche de 0 %

Ce résultat est bien inférieur aux performances obtenues sur le SWE-Bench traditionnel.

Pourquoi est-ce si difficile ?

Analyse des défis

La spécificité des bases de code d'applications mobiles pose des défis supplémentaires :

  • Adaptation multiplateforme : Nécessité de prendre en compte simultanément les plateformes iOS et Android
  • Relations de dépendance complexes : Couplage élevé entre les modules des applications mobiles
  • Contraintes de performance : Ressources limitées des appareils mobiles, exigences élevées en matière d'optimisation du code
  • Logique d'interface utilisateur complexe : Code d'interaction de l'interface difficile à analyser statiquement

Comparaison avec les tests de référence traditionnels

Analyse comparative

Par rapport au SWE-Bench traditionnel, la difficulté de la version Mobile est considérablement accrue :

  • Taille de la base de code plus importante
  • Logique métier plus complexe
  • Cas de test plus difficiles à réussir
  • Exigences de fenêtre de contexte plus élevées

Importance pour l'industrie

Importance pour l'industrie

Ce test de référence révèle les limites des agents IA dans des scénarios industriels réels. Bien que l'IA progresse rapidement dans la génération de code, il reste encore beaucoup de chemin à parcourir pour traiter des projets réels vastes et complexes.

Perspectives d'avenir

Perspectives d'avenir

La publication de SWE-Bench Mobile fournit une norme de mesure importante pour le développement d'outils de programmation IA. Il nous rappelle que :

  • La programmation assistée par l'IA nécessite toujours une supervision humaine
  • Les projets complexes nécessitent une compréhension contextuelle plus intelligente
  • La capacité des modèles a encore beaucoup de place pour l'amélioration

Liens vers les ressources

Ressources

Published in Technology

You Might Also Like