小红书 ने SWE-Bench Mobile जारी किया: क्या AI एजेंट 100 मिलियन उपयोगकर्ताओं वाले ऐप कोडबेस का सामना करते समय अधिकतम 12% की सफलता दर प्राप्त कर सकते हैं?

2/15/2026
3 min read

小红书 ने SWE-Bench Mobile जारी किया: क्या AI एजेंट 100 मिलियन उपयोगकर्ताओं वाले ऐप कोडबेस का सामना करते समय अधिकतम 12% की सफलता दर प्राप्त कर सकते हैं?

SWE-Bench Mobile

小红书 (Xiaohongshu) की टीम ने एक नया बेंचमार्क परीक्षण SWE-Bench Mobile जारी किया है, जो विशेष रूप से वास्तविक मोबाइल एप्लिकेशन कोडबेस पर AI एजेंटों के प्रदर्शन का मूल्यांकन करने के लिए है। परिणाम विचारोत्तेजक हैं: यहां तक कि शीर्ष AI एजेंट भी, 100 मिलियन उपयोगकर्ताओं वाले ऐप के कोडबेस का सामना करते समय, अधिकतम 12% की सफलता दर प्राप्त करते हैं।

परीक्षण परिदृश्य

SWE-Bench Mobile क्या है?

बेंचमार्क परिचय

SWE-Bench Mobile मोबाइल एप्लिकेशन विकास के लिए एक कोड फिक्सिंग बेंचमार्क परीक्षण है। इसमें वास्तविक मोबाइल एप्लिकेशन बग फिक्सिंग कार्य शामिल हैं, जिसके लिए AI एजेंट को सक्षम होने की आवश्यकता है:

  • जटिल मोबाइल एप्लिकेशन कोड संरचना को समझना
  • समस्या के मूल कारण का पता लगाना
  • सही फिक्सिंग कोड उत्पन्न करना
  • यह सुनिश्चित करना कि फिक्सिंग से कोई नई समस्या न आए

परीक्षण के परिणाम

परीक्षण के परिणाम

परीक्षण में, कई मुख्यधारा के AI एजेंटों का प्रदर्शन इस प्रकार है:

  • सर्वश्रेष्ठ प्रदर्शन: 12% सफलता दर
  • औसत स्तर: 5-8% सफलता दर
  • कुछ मॉडल: लगभग 0% सफलता दर

यह परिणाम पारंपरिक SWE-Bench पर प्रदर्शन से बहुत कम है।

यह इतना कठिन क्यों है?

चुनौती विश्लेषण

मोबाइल एप्लिकेशन कोडबेस की विशिष्टता अतिरिक्त चुनौतियां लाती है:

  • मल्टी-एंड एडेप्टेशन (Multi-end adaptation): iOS और Android दोनों प्लेटफार्मों पर एक साथ विचार करने की आवश्यकता है
  • जटिल निर्भरता संबंध: मोबाइल एप्लिकेशन के मॉड्यूल के बीच उच्च युग्मन
  • प्रदर्शन बाधाएं: मोबाइल डिवाइस संसाधन सीमित हैं, कोड अनुकूलन की आवश्यकताएं अधिक हैं
  • UI लॉजिक जटिल: इंटरफ़ेस इंटरैक्शन कोड का स्थिर विश्लेषण करना मुश्किल है

पारंपरिक बेंचमार्क के साथ तुलना

तुलनात्मक विश्लेषण

पारंपरिक SWE-Bench की तुलना में, Mobile संस्करण की कठिनाई में काफी वृद्धि हुई है:

  • कोडबेस का पैमाना बड़ा है
  • व्यवसाय तर्क अधिक जटिल है
  • परीक्षण मामलों को पास करना अधिक कठिन है
  • संदर्भ विंडो आवश्यकताएं अधिक हैं

उद्योग महत्व

उद्योग महत्व

यह बेंचमार्क परीक्षण वास्तविक औद्योगिक परिदृश्यों में AI एजेंटों की सीमाओं को दर्शाता है। हालांकि AI ने कोड जनरेशन के मामले में तेजी से प्रगति की है, लेकिन बड़े, जटिल वास्तविक परियोजनाओं को संभालने में अभी भी एक लंबा रास्ता तय करना है।

भविष्य की संभावनाएं

भविष्य की संभावनाएं

SWE-Bench Mobile का प्रकाशन AI प्रोग्रामिंग टूल के विकास के लिए एक महत्वपूर्ण बेंचमार्क प्रदान करता है। यह हमें याद दिलाता है:

  • AI-सहायता प्राप्त प्रोग्रामिंग को अभी भी मानव पर्यवेक्षण की आवश्यकता है
  • जटिल परियोजनाओं को अधिक बुद्धिमान संदर्भ समझ की आवश्यकता होती है
  • मॉडल क्षमता में सुधार की बहुत गुंजाइश है

संसाधन लिंक

संसाधन

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy संशोधन गाइड: कैसे प्राप्त करें चमकदार किंवदंती स्तर का पालतू

Claude Code Buddy संशोधन गाइड: कैसे प्राप्त करें चमकदार किंवदंती स्तर का पालतू 2026年4月1日,Anthropic 在 Claude Code 2.1.89 ...

Obsidian ने Defuddle लॉन्च किया, Obsidian Web Clipper को एक नए स्तर पर ले गयाTechnology

Obsidian ने Defuddle लॉन्च किया, Obsidian Web Clipper को एक नए स्तर पर ले गया

Obsidian ने Defuddle लॉन्च किया, Obsidian Web Clipper को एक नए स्तर पर ले गया मैं हमेशा Obsidian के मूल विचार को पसंद क...

OpenAI अचानक घोषणा करता है "तीन-इन-एक": ब्राउज़र + प्रोग्रामिंग + ChatGPT का विलय, आंतरिक रूप से स्वीकार किया कि पिछले वर्ष गलत दिशा में बढ़ाTechnology

OpenAI अचानक घोषणा करता है "तीन-इन-एक": ब्राउज़र + प्रोग्रामिंग + ChatGPT का विलय, आंतरिक रूप से स्वीकार किया कि पिछले वर्ष गलत दिशा में बढ़ा

OpenAI अचानक घोषणा करता है "तीन-इन-एक": ब्राउज़र + प्रोग्रामिंग + ChatGPT का विलय, आंतरिक रूप से स्वीकार किया कि पिछले व...

2026, खुद को 'स्वायत्त' करने के लिए मजबूर नहीं! ये 8 छोटी बातें करें, स्वास्थ्य स्वाभाविक रूप से आएगाHealth

2026, खुद को 'स्वायत्त' करने के लिए मजबूर नहीं! ये 8 छोटी बातें करें, स्वास्थ्य स्वाभाविक रूप से आएगा

2026, खुद को 'स्वायत्त' करने के लिए मजबूर नहीं! ये 8 छोटी बातें करें, स्वास्थ्य स्वाभाविक रूप से आएगा नए साल की शुरुआत,...

वे माताएँ जो वजन कम करने की कोशिश कर रही हैं लेकिन सफल नहीं हो रही हैं, निश्चित रूप से यहाँ फंस गई हैंHealth

वे माताएँ जो वजन कम करने की कोशिश कर रही हैं लेकिन सफल नहीं हो रही हैं, निश्चित रूप से यहाँ फंस गई हैं

वे माताएँ जो वजन कम करने की कोशिश कर रही हैं लेकिन सफल नहीं हो रही हैं, निश्चित रूप से यहाँ फंस गई हैं मार्च का आधा मही...

📝
Technology

AI ब्राउज़र 24 घंटे स्थिर संचालन गाइड

AI ब्राउज़र 24 घंटे स्थिर संचालन गाइड यह ट्यूटोरियल एक स्थिर, दीर्घकालिक AI ब्राउज़र वातावरण स्थापित करने के तरीके को प्...