शाओहोंगशूने SWE-Bench Mobile लाँच केले: जेव्हा AI Agent करोडो वापरकर्त्यांच्या App कोडबेसचा सामना करतो, तेव्हा सर्वाधिक उत्तीर्ण दर फक्त 12%?

SWE-Bench Mobile

शाओहोंगशू टीमने एक नवीन बेंचमार्क SWE-Bench Mobile लाँच केले आहे, जे विशेषतः AI Agent च्या वास्तविक मोबाइल ॲप्लिकेशन कोडबेसवरील कामगिरीचे मूल्यांकन करण्यासाठी आहे. याचे निष्कर्ष विचार करायला लावणारे आहेत: अगदी टॉपच्या AI Agent चा करोडो वापरकर्त्यांच्या App च्या कोडबेसमध्ये सर्वाधिक उत्तीर्ण दर फक्त 12% आहे.

चाचणीचे दृश्य

SWE-Bench Mobile म्हणजे काय?

बेंचमार्क परिचय

SWE-Bench Mobile हे मोबाइल ॲप्लिकेशन डेव्हलपमेंटसाठी कोड दुरुस्ती बेंचमार्क आहे. यात वास्तविक मोबाइल ॲप्लिकेशनमधील बग फिक्सिंग कार्यांचा समावेश आहे, ज्यामध्ये AI Agent सक्षम असणे आवश्यक आहे:

जटिल मोबाइल ॲप्लिकेशन कोड स्ट्रक्चर समजून घेणे
समस्येचे मूळ कारण शोधणे
योग्य दुरुस्ती कोड तयार करणे
दुरुस्तीमुळे नवीन समस्या उद्भवणार नाहीत याची खात्री करणे

चाचणी निकाल

चाचणीमध्ये, अनेक मुख्य AI Agent ची कामगिरी खालीलप्रमाणे आहे:

सर्वोत्तम कामगिरी: 12% उत्तीर्ण दर
सरासरी पातळी: 5-8% उत्तीर्ण दर
काही मॉडेल्स: 0% च्या जवळपास उत्तीर्ण दर

हा निकाल पारंपरिक SWE-Bench वरील कामगिरीपेक्षा खूपच कमी आहे.

हे इतके कठीण का आहे?

आव्हान विश्लेषण

मोबाइल ॲप्लिकेशन कोडबेसच्या विशिष्टतेमुळे अतिरिक्त आव्हाने येतात:

मल्टी-एंड ॲडॉप्टेशन: iOS आणि Android प्लॅटफॉर्म दोन्हीचा विचार करणे आवश्यक आहे.
जटिल अवलंबित्व: मोबाइल ॲप्लिकेशनच्या मॉड्यूल्समध्ये उच्च कपलिंग असते.
कार्यक्षमतेवरील मर्यादा: मोबाइल डिव्हाइसमध्ये मर्यादित संसाधने असतात, त्यामुळे कोड ऑप्टिमायझेशनची आवश्यकता जास्त असते.
UI लॉजिकची जटिलता: इंटरफेस इंटरॅक्शन कोडचे स्थिर विश्लेषण करणे कठीण आहे.

पारंपरिक बेंचमार्कशी तुलना

तुलनात्मक विश्लेषण

पारंपरिक SWE-Bench च्या तुलनेत, Mobile आवृत्तीची कठीणता लक्षणीयरीत्या वाढली आहे:

कोडबेसचा आकार मोठा आहे.
व्यवसाय लॉजिक अधिक जटिल आहे.
चाचणी प्रकरणे उत्तीर्ण होणे अधिक कठीण आहे.
संदर्भ विंडोची आवश्यकता जास्त आहे.

उद्योगासाठी महत्त्व

या बेंचमार्क चाचणीने वास्तविक औद्योगिक परिस्थितीत AI Agent च्या मर्यादा उघड केल्या आहेत. जरी AI ने कोड जनरेशनमध्ये झपाट्याने प्रगती केली असली, तरी मोठे आणि जटिल वास्तविक प्रकल्प हाताळताना अजून बराच पल्ला गाठायचा आहे.