小红书 ने SWE-Bench Mobile जारी किया: क्या AI एजेंट 100 मिलियन उपयोगकर्ताओं वाले ऐप कोडबेस का सामना करते समय अधिकतम 12% की सफलता दर प्राप्त कर सकते हैं?

SWE-Bench Mobile

小红书 (Xiaohongshu) की टीम ने एक नया बेंचमार्क परीक्षण SWE-Bench Mobile जारी किया है, जो विशेष रूप से वास्तविक मोबाइल एप्लिकेशन कोडबेस पर AI एजेंटों के प्रदर्शन का मूल्यांकन करने के लिए है। परिणाम विचारोत्तेजक हैं: यहां तक कि शीर्ष AI एजेंट भी, 100 मिलियन उपयोगकर्ताओं वाले ऐप के कोडबेस का सामना करते समय, अधिकतम 12% की सफलता दर प्राप्त करते हैं।

परीक्षण परिदृश्य

SWE-Bench Mobile क्या है?

बेंचमार्क परिचय

SWE-Bench Mobile मोबाइल एप्लिकेशन विकास के लिए एक कोड फिक्सिंग बेंचमार्क परीक्षण है। इसमें वास्तविक मोबाइल एप्लिकेशन बग फिक्सिंग कार्य शामिल हैं, जिसके लिए AI एजेंट को सक्षम होने की आवश्यकता है:

जटिल मोबाइल एप्लिकेशन कोड संरचना को समझना
समस्या के मूल कारण का पता लगाना
सही फिक्सिंग कोड उत्पन्न करना
यह सुनिश्चित करना कि फिक्सिंग से कोई नई समस्या न आए

परीक्षण के परिणाम

परीक्षण में, कई मुख्यधारा के AI एजेंटों का प्रदर्शन इस प्रकार है:

सर्वश्रेष्ठ प्रदर्शन: 12% सफलता दर
औसत स्तर: 5-8% सफलता दर
कुछ मॉडल: लगभग 0% सफलता दर

यह परिणाम पारंपरिक SWE-Bench पर प्रदर्शन से बहुत कम है।

यह इतना कठिन क्यों है?

चुनौती विश्लेषण

मोबाइल एप्लिकेशन कोडबेस की विशिष्टता अतिरिक्त चुनौतियां लाती है:

मल्टी-एंड एडेप्टेशन (Multi-end adaptation): iOS और Android दोनों प्लेटफार्मों पर एक साथ विचार करने की आवश्यकता है
जटिल निर्भरता संबंध: मोबाइल एप्लिकेशन के मॉड्यूल के बीच उच्च युग्मन
प्रदर्शन बाधाएं: मोबाइल डिवाइस संसाधन सीमित हैं, कोड अनुकूलन की आवश्यकताएं अधिक हैं
UI लॉजिक जटिल: इंटरफ़ेस इंटरैक्शन कोड का स्थिर विश्लेषण करना मुश्किल है

पारंपरिक बेंचमार्क के साथ तुलना

तुलनात्मक विश्लेषण

पारंपरिक SWE-Bench की तुलना में, Mobile संस्करण की कठिनाई में काफी वृद्धि हुई है:

कोडबेस का पैमाना बड़ा है
व्यवसाय तर्क अधिक जटिल है
परीक्षण मामलों को पास करना अधिक कठिन है
संदर्भ विंडो आवश्यकताएं अधिक हैं

उद्योग महत्व

यह बेंचमार्क परीक्षण वास्तविक औद्योगिक परिदृश्यों में AI एजेंटों की सीमाओं को दर्शाता है। हालांकि AI ने कोड जनरेशन के मामले में तेजी से प्रगति की है, लेकिन बड़े, जटिल वास्तविक परियोजनाओं को संभालने में अभी भी एक लंबा रास्ता तय करना है।