शाओहोंगशूने SWE-Bench Mobile लाँच केले: जेव्हा AI Agent करोडो वापरकर्त्यांच्या App कोडबेसचा सामना करतो, तेव्हा सर्वाधिक उत्तीर्ण दर फक्त 12%?
शाओहोंगशूने SWE-Bench Mobile लाँच केले: जेव्हा AI Agent करोडो वापरकर्त्यांच्या App कोडबेसचा सामना करतो, तेव्हा सर्वाधिक उत्तीर्ण दर फक्त 12%?

शाओहोंगशू टीमने एक नवीन बेंचमार्क SWE-Bench Mobile लाँच केले आहे, जे विशेषतः AI Agent च्या वास्तविक मोबाइल ॲप्लिकेशन कोडबेसवरील कामगिरीचे मूल्यांकन करण्यासाठी आहे. याचे निष्कर्ष विचार करायला लावणारे आहेत: अगदी टॉपच्या AI Agent चा करोडो वापरकर्त्यांच्या App च्या कोडबेसमध्ये सर्वाधिक उत्तीर्ण दर फक्त 12% आहे.

SWE-Bench Mobile म्हणजे काय?

SWE-Bench Mobile हे मोबाइल ॲप्लिकेशन डेव्हलपमेंटसाठी कोड दुरुस्ती बेंचमार्क आहे. यात वास्तविक मोबाइल ॲप्लिकेशनमधील बग फिक्सिंग कार्यांचा समावेश आहे, ज्यामध्ये AI Agent सक्षम असणे आवश्यक आहे:
- जटिल मोबाइल ॲप्लिकेशन कोड स्ट्रक्चर समजून घेणे
- समस्येचे मूळ कारण शोधणे
- योग्य दुरुस्ती कोड तयार करणे
- दुरुस्तीमुळे नवीन समस्या उद्भवणार नाहीत याची खात्री करणे
चाचणी निकाल

चाचणीमध्ये, अनेक मुख्य AI Agent ची कामगिरी खालीलप्रमाणे आहे:
- सर्वोत्तम कामगिरी: 12% उत्तीर्ण दर
- सरासरी पातळी: 5-8% उत्तीर्ण दर
- काही मॉडेल्स: 0% च्या जवळपास उत्तीर्ण दर
हा निकाल पारंपरिक SWE-Bench वरील कामगिरीपेक्षा खूपच कमी आहे.
हे इतके कठीण का आहे?

मोबाइल ॲप्लिकेशन कोडबेसच्या विशिष्टतेमुळे अतिरिक्त आव्हाने येतात:
- मल्टी-एंड ॲडॉप्टेशन: iOS आणि Android प्लॅटफॉर्म दोन्हीचा विचार करणे आवश्यक आहे.
- जटिल अवलंबित्व: मोबाइल ॲप्लिकेशनच्या मॉड्यूल्समध्ये उच्च कपलिंग असते.
- कार्यक्षमतेवरील मर्यादा: मोबाइल डिव्हाइसमध्ये मर्यादित संसाधने असतात, त्यामुळे कोड ऑप्टिमायझेशनची आवश्यकता जास्त असते.
- UI लॉजिकची जटिलता: इंटरफेस इंटरॅक्शन कोडचे स्थिर विश्लेषण करणे कठीण आहे.
पारंपरिक बेंचमार्कशी तुलना

पारंपरिक SWE-Bench च्या तुलनेत, Mobile आवृत्तीची कठीणता लक्षणीयरीत्या वाढली आहे:
- कोडबेसचा आकार मोठा आहे.
- व्यवसाय लॉजिक अधिक जटिल आहे.
- चाचणी प्रकरणे उत्तीर्ण होणे अधिक कठीण आहे.
- संदर्भ विंडोची आवश्यकता जास्त आहे.
उद्योगासाठी महत्त्व

या बेंचमार्क चाचणीने वास्तविक औद्योगिक परिस्थितीत AI Agent च्या मर्यादा उघड केल्या आहेत. जरी AI ने कोड जनरेशनमध्ये झपाट्याने प्रगती केली असली, तरी मोठे आणि जटिल वास्तविक प्रकल्प हाताळताना अजून बराच पल्ला गाठायचा आहे.
भविष्यातील दृष्टीकोन

SWE-Bench Mobile चे प्रकाशन AI प्रोग्रामिंग साधनांच्या विकासासाठी एक महत्त्वाचे मापदंड प्रदान करते. हे आपल्याला आठवण करून देते:
- AI-सहाय्यित प्रोग्रामिंगला अजूनही मानवी देखरेखीची आवश्यकता आहे.
- जटिल प्रकल्पांना अधिक स्मार्ट संदर्भातील समजूतदारपणा आवश्यक आहे.
- मॉडेल क्षमतेत सुधारणा करण्यासाठी खूप वाव आहे.
संसाधनांची लिंक

- शोधनिबंध: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





