Xiaohongshu publie SWE-Bench Mobile : Lorsque l'IA Agent est confronté à une base de code d'application avec des centaines de millions d'utilisateurs, le taux de réussite maximal n'est que de 12 % ?

SWE-Bench Mobile

L'équipe de Xiaohongshu a publié un nouveau test de référence, SWE-Bench Mobile, spécialement conçu pour évaluer les performances de l'IA Agent sur des bases de code d'applications mobiles réelles. Les résultats sont révélateurs : même les meilleurs IA Agents n'atteignent qu'un taux de réussite maximal de 12 % lorsqu'ils sont confrontés à la base de code d'une application utilisée par des centaines de millions d'utilisateurs.

测试场景

Qu'est-ce que SWE-Bench Mobile ?

基准介绍

SWE-Bench Mobile est un test de référence pour la correction de code ciblant le développement d'applications mobiles. Il comprend des tâches de correction de bugs d'applications mobiles réelles, exigeant que l'IA Agent soit capable de :

Comprendre la structure complexe du code d'une application mobile
Localiser la cause profonde des problèmes
Générer le code de correction correct
S'assurer que la correction n'introduit pas de nouveaux problèmes

Résultats des tests

测试结果

Lors des tests, les performances de plusieurs IA Agents courants étaient les suivantes :

Meilleure performance : taux de réussite de 12 %
Niveau moyen : taux de réussite de 5 à 8 %
Certains modèles : taux de réussite proche de 0 %

Ce résultat est bien inférieur aux performances obtenues sur le SWE-Bench traditionnel.

Pourquoi est-ce si difficile ?

挑战分析

La spécificité des bases de code d'applications mobiles pose des défis supplémentaires :

Adaptation multiplateforme : Nécessité de prendre en compte simultanément les plateformes iOS et Android
Relations de dépendance complexes : Le couplage entre les modules d'une application mobile est élevé
Contraintes de performance : Les ressources des appareils mobiles sont limitées, les exigences d'optimisation du code sont élevées
Logique d'interface utilisateur complexe : Le code d'interaction de l'interface est difficile à analyser statiquement

Comparaison avec les tests de référence traditionnels

对比分析

Par rapport au SWE-Bench traditionnel, la difficulté de la version Mobile est considérablement accrue :

La taille de la base de code est plus importante
La logique métier est plus complexe
Les cas de test sont plus difficiles à réussir
Les exigences de la fenêtre de contexte sont plus élevées

Signification pour l'industrie

行业意义

Ce test de référence révèle les limites de l'IA Agent dans des scénarios industriels réels. Bien que l'IA progresse rapidement dans la génération de code, il reste encore un long chemin à parcourir pour traiter des projets réels vastes et complexes.

Perspectives d'avenir

未来展望

La publication de SWE-Bench Mobile fournit une norme de mesure importante pour le développement d'outils de programmation d'IA. Il nous rappelle que :

La programmation assistée par l'IA nécessite toujours une supervision humaine
Les projets complexes nécessitent une compréhension du contexte plus intelligente
La capacité du modèle a encore beaucoup de place pour l'amélioration

Liens de ressources

Article : https://arxiv.org/abs/xxxxx
GitHub : https://github.com/xiaohongshu/swe-bench-mobile

Xiaohongshu publie SWE-Bench Mobile : Lorsque l'IA Agent est confronté à une base de code d'application avec des centaines de millions d'utilisateurs, le taux de réussite maximal n'est que de 12 % ?

Xiaohongshu publie SWE-Bench Mobile : Lorsque l'IA Agent est confronté à une base de code d'application avec des centaines de millions d'utilisateurs, le taux de réussite maximal n'est que de 12 % ?

Qu'est-ce que SWE-Bench Mobile ?

Résultats des tests

Pourquoi est-ce si difficile ?

Comparaison avec les tests de référence traditionnels

Signification pour l'industrie

Perspectives d'avenir

Liens de ressources

You Might Also Like

Guide de modification de Claude Code Buddy : Comment obtenir un animal de compagnie légendaire brillant

Obsidian a lancé Defuddle, élevant Obsidian Web Clipper à un nouveau niveau

OpenAI annonce soudainement "trois en un" : fusion du navigateur + programmation + ChatGPT, admettant en interne avoir pris le mauvais chemin l'année dernière

2026, ne vous forcez plus à être 'discipliné' ! Faites ces 8 petites choses, la santé viendra naturellement

Ces mamans qui luttent pour perdre du poids mais n'y arrivent pas, sont certainement piégées ici

Guide de fonctionnement stable de l'AI Browser 24 heures sur 24