Η Xiaohongshu Κυκλοφορεί το SWE-Bench Mobile: Όταν ένας AI Agent Αντιμετωπίζει μια Βάση Κώδικα Εφαρμογής με Εκατοντάδες Εκατομμύρια Χρήστες, το Υψηλότερο Ποσοστό Επιτυχίας είναι Μόλις 12%;

2/15/2026
3 min read

Η Xiaohongshu Κυκλοφορεί το SWE-Bench Mobile: Όταν ένας AI Agent Αντιμετωπίζει μια Βάση Κώδικα Εφαρμογής με Εκατοντάδες Εκατομμύρια Χρήστες, το Υψηλότερο Ποσοστό Επιτυχίας είναι Μόλις 12%;

SWE-Bench Mobile

Η ομάδα της Xiaohongshu κυκλοφόρησε ένα νέο benchmark, το SWE-Bench Mobile, ειδικά για την αξιολόγηση της απόδοσης των AI Agent σε πραγματικές βάσεις κώδικα εφαρμογών για κινητά. Τα αποτελέσματα είναι ανησυχητικά: ακόμη και οι κορυφαίοι AI Agent, όταν αντιμετωπίζουν μια βάση κώδικα App με εκατοντάδες εκατομμύρια χρήστες, έχουν μέγιστο ποσοστό επιτυχίας μόλις 12%.

Τεστ Σενάριο

Τι είναι το SWE-Bench Mobile;

Εισαγωγή Benchmark

Το SWE-Bench Mobile είναι ένα benchmark για την επιδιόρθωση κώδικα σε εφαρμογές για κινητά. Περιλαμβάνει πραγματικές εργασίες επιδιόρθωσης σφαλμάτων σε εφαρμογές για κινητά, απαιτώντας από τους AI Agent να:

  • Κατανοούν την πολύπλοκη δομή κώδικα των εφαρμογών για κινητά
  • Εντοπίζουν την πηγή των προβλημάτων
  • Δημιουργούν σωστό κώδικα επιδιόρθωσης
  • Διασφαλίζουν ότι οι επιδιορθώσεις δεν εισάγουν νέα προβλήματα

Αποτελέσματα Τεστ

Αποτελέσματα Τεστ

Στις δοκιμές, η απόδοση πολλών mainstream AI Agent ήταν η εξής:

  • Καλύτερη Απόδοση: 12% ποσοστό επιτυχίας
  • Μέσος Όρος: 5-8% ποσοστό επιτυχίας
  • Μερικά Μοντέλα: Ποσοστό επιτυχίας κοντά στο 0%

Αυτό το αποτέλεσμα είναι πολύ χαμηλότερο από την απόδοση στο παραδοσιακό SWE-Bench.

Γιατί είναι τόσο δύσκολο;

Ανάλυση Προκλήσεων

Η ιδιαιτερότητα της βάσης κώδικα των εφαρμογών για κινητά δημιουργεί επιπλέον προκλήσεις:

  • Προσαρμογή σε Πολλαπλές Πλατφόρμες: Απαιτείται ταυτόχρονη εξέταση των πλατφορμών iOS και Android
  • Πολύπλοκες Σχέσεις Εξάρτησης: Η διασύνδεση μεταξύ των modules των εφαρμογών για κινητά είναι υψηλή
  • Περιορισμοί Απόδοσης: Οι πόροι των κινητών συσκευών είναι περιορισμένοι, οι απαιτήσεις βελτιστοποίησης κώδικα είναι υψηλές
  • Πολύπλοκη Λογική UI: Ο κώδικας αλληλεπίδρασης διεπαφής είναι δύσκολο να αναλυθεί στατικά

Σύγκριση με Παραδοσιακά Benchmarks

Ανάλυση Σύγκρισης

Σε σύγκριση με το παραδοσιακό SWE-Bench, η δυσκολία της Mobile έκδοσης έχει αυξηθεί σημαντικά:

  • Μεγαλύτερο μέγεθος βάσης κώδικα
  • Πιο σύνθετη επιχειρηματική λογική
  • Δυσκολότερη η επιτυχία των test cases
  • Υψηλότερες απαιτήσεις για το context window

Σημασία για τον Κλάδο

Σημασία για τον Κλάδο

Αυτό το benchmark αποκαλύπτει τους περιορισμούς των AI Agent σε πραγματικά βιομηχανικά σενάρια. Αν και η AI έχει σημειώσει ραγδαία πρόοδο στην παραγωγή κώδικα, εξακολουθεί να έχει πολύ δρόμο να διανύσει όταν πρόκειται για την επεξεργασία μεγάλων, σύνθετων πραγματικών έργων.

Μελλοντικές Προοπτικές

Μελλοντικές Προοπτικές

Η κυκλοφορία του SWE-Bench Mobile παρέχει ένα σημαντικό μέτρο για την ανάπτυξη εργαλείων προγραμματισμού AI. Μας υπενθυμίζει ότι:

  • Η υποβοηθούμενη από AI κωδικοποίηση εξακολουθεί να χρειάζεται ανθρώπινη επίβλεψη
  • Τα σύνθετα έργα απαιτούν πιο έξυπνη κατανόηση του context
  • Υπάρχει ακόμη μεγάλο περιθώριο βελτίωσης στις δυνατότητες των μοντέλων

Σύνδεσμοι Πόρων

Πόροι

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修改指南:如何获得闪光传说级宠物

Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

Obsidian παρουσίασε το Defuddle, ανεβάζοντας το Obsidian Web Clipper σε νέο επίπεδοTechnology

Obsidian παρουσίασε το Defuddle, ανεβάζοντας το Obsidian Web Clipper σε νέο επίπεδο

Obsidian παρουσίασε το Defuddle, ανεβάζοντας το Obsidian Web Clipper σε νέο επίπεδο Μου άρεσε πάντα η βασική φιλοσοφία ...

OpenAI ξαφνικά ανακοινώνει "τρίο σε ένα": Συνδυασμός περιηγητή + προγραμματισμού + ChatGPT, παραδέχεται ότι έκανε λάθος τον τελευταίο χρόνοTechnology

OpenAI ξαφνικά ανακοινώνει "τρίο σε ένα": Συνδυασμός περιηγητή + προγραμματισμού + ChatGPT, παραδέχεται ότι έκανε λάθος τον τελευταίο χρόνο

OpenAI ξαφνικά ανακοινώνει "τρίο σε ένα": Συνδυασμός περιηγητή + προγραμματισμού + ChatGPT, παραδέχεται ότι έκανε λάθος ...

2026, μην πιέζεις τον εαυτό σου να είναι "πειθαρχημένος"! Κάνε αυτές τις 8 μικρές κινήσεις και η υγεία θα έρθει φυσικάHealth

2026, μην πιέζεις τον εαυτό σου να είναι "πειθαρχημένος"! Κάνε αυτές τις 8 μικρές κινήσεις και η υγεία θα έρθει φυσικά

2026, μην πιέζεις τον εαυτό σου να είναι "πειθαρχημένος"! Κάνε αυτές τις 8 μικρές κινήσεις και η υγεία θα έρθει φυσικά ...

Οι μητέρες που προσπαθούν να χάσουν βάρος αλλά δεν τα καταφέρνουν, σίγουρα έχουν κολλήσει εδώHealth

Οι μητέρες που προσπαθούν να χάσουν βάρος αλλά δεν τα καταφέρνουν, σίγουρα έχουν κολλήσει εδώ

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHO...

📝
Technology

AI Browser 24小时稳定运行指南

AI Browser 24小时稳定运行指南 Αυτός ο οδηγός περιγράφει πώς να δημιουργήσετε ένα σταθερό και μακροχρόνιο περιβάλλον AI Browser. ...