Η Xiaohongshu Κυκλοφορεί το SWE-Bench Mobile: Όταν ένας AI Agent Αντιμετωπίζει μια Βάση Κώδικα Εφαρμογής με Εκατοντάδες Εκατομμύρια Χρήστες, το Υψηλότερο Ποσοστό Επιτυχίας είναι Μόλις 12%;

SWE-Bench Mobile

Η ομάδα της Xiaohongshu κυκλοφόρησε ένα νέο benchmark, το SWE-Bench Mobile, ειδικά για την αξιολόγηση της απόδοσης των AI Agent σε πραγματικές βάσεις κώδικα εφαρμογών για κινητά. Τα αποτελέσματα είναι ανησυχητικά: ακόμη και οι κορυφαίοι AI Agent, όταν αντιμετωπίζουν μια βάση κώδικα App με εκατοντάδες εκατομμύρια χρήστες, έχουν μέγιστο ποσοστό επιτυχίας μόλις 12%.

Τεστ Σενάριο

Τι είναι το SWE-Bench Mobile;

Εισαγωγή Benchmark

Το SWE-Bench Mobile είναι ένα benchmark για την επιδιόρθωση κώδικα σε εφαρμογές για κινητά. Περιλαμβάνει πραγματικές εργασίες επιδιόρθωσης σφαλμάτων σε εφαρμογές για κινητά, απαιτώντας από τους AI Agent να:

Κατανοούν την πολύπλοκη δομή κώδικα των εφαρμογών για κινητά
Εντοπίζουν την πηγή των προβλημάτων
Δημιουργούν σωστό κώδικα επιδιόρθωσης
Διασφαλίζουν ότι οι επιδιορθώσεις δεν εισάγουν νέα προβλήματα

Αποτελέσματα Τεστ

Στις δοκιμές, η απόδοση πολλών mainstream AI Agent ήταν η εξής:

Καλύτερη Απόδοση: 12% ποσοστό επιτυχίας
Μέσος Όρος: 5-8% ποσοστό επιτυχίας
Μερικά Μοντέλα: Ποσοστό επιτυχίας κοντά στο 0%

Αυτό το αποτέλεσμα είναι πολύ χαμηλότερο από την απόδοση στο παραδοσιακό SWE-Bench.

Γιατί είναι τόσο δύσκολο;

Ανάλυση Προκλήσεων

Η ιδιαιτερότητα της βάσης κώδικα των εφαρμογών για κινητά δημιουργεί επιπλέον προκλήσεις:

Προσαρμογή σε Πολλαπλές Πλατφόρμες: Απαιτείται ταυτόχρονη εξέταση των πλατφορμών iOS και Android
Πολύπλοκες Σχέσεις Εξάρτησης: Η διασύνδεση μεταξύ των modules των εφαρμογών για κινητά είναι υψηλή
Περιορισμοί Απόδοσης: Οι πόροι των κινητών συσκευών είναι περιορισμένοι, οι απαιτήσεις βελτιστοποίησης κώδικα είναι υψηλές
Πολύπλοκη Λογική UI: Ο κώδικας αλληλεπίδρασης διεπαφής είναι δύσκολο να αναλυθεί στατικά

Σύγκριση με Παραδοσιακά Benchmarks

Ανάλυση Σύγκρισης

Σε σύγκριση με το παραδοσιακό SWE-Bench, η δυσκολία της Mobile έκδοσης έχει αυξηθεί σημαντικά:

Μεγαλύτερο μέγεθος βάσης κώδικα
Πιο σύνθετη επιχειρηματική λογική
Δυσκολότερη η επιτυχία των test cases
Υψηλότερες απαιτήσεις για το context window

Σημασία για τον Κλάδο

Αυτό το benchmark αποκαλύπτει τους περιορισμούς των AI Agent σε πραγματικά βιομηχανικά σενάρια. Αν και η AI έχει σημειώσει ραγδαία πρόοδο στην παραγωγή κώδικα, εξακολουθεί να έχει πολύ δρόμο να διανύσει όταν πρόκειται για την επεξεργασία μεγάλων, σύνθετων πραγματικών έργων.

Μελλοντικές Προοπτικές

Η κυκλοφορία του SWE-Bench Mobile παρέχει ένα σημαντικό μέτρο για την ανάπτυξη εργαλείων προγραμματισμού AI. Μας υπενθυμίζει ότι:

Η υποβοηθούμενη από AI κωδικοποίηση εξακολουθεί να χρειάζεται ανθρώπινη επίβλεψη
Τα σύνθετα έργα απαιτούν πιο έξυπνη κατανόηση του context
Υπάρχει ακόμη μεγάλο περιθώριο βελτίωσης στις δυνατότητες των μοντέλων

Σύνδεσμοι Πόρων

Πόροι

Εργασία: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Τι είναι το SWE-Bench Mobile;

Αποτελέσματα Τεστ

Γιατί είναι τόσο δύσκολο;

Σύγκριση με Παραδοσιακά Benchmarks

Σημασία για τον Κλάδο

Μελλοντικές Προοπτικές

Σύνδεσμοι Πόρων

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian παρουσίασε το Defuddle, ανεβάζοντας το Obsidian Web Clipper σε νέο επίπεδο

OpenAI ξαφνικά ανακοινώνει "τρίο σε ένα": Συνδυασμός περιηγητή + προγραμματισμού + ChatGPT, παραδέχεται ότι έκανε λάθος τον τελευταίο χρόνο

2026, μην πιέζεις τον εαυτό σου να είναι "πειθαρχημένος"! Κάνε αυτές τις 8 μικρές κινήσεις και η υγεία θα έρθει φυσικά

Οι μητέρες που προσπαθούν να χάσουν βάρος αλλά δεν τα καταφέρνουν, σίγουρα έχουν κολλήσει εδώ

AI Browser 24小时稳定运行指南