शाओहोंगशूने SWE-Bench Mobile लाँच केले: जेव्हा AI Agent करोडो वापरकर्त्यांच्या App कोडबेसचा सामना करतो, तेव्हा सर्वाधिक उत्तीर्ण दर फक्त 12%?

2/15/2026
2 min read

शाओहोंगशूने SWE-Bench Mobile लाँच केले: जेव्हा AI Agent करोडो वापरकर्त्यांच्या App कोडबेसचा सामना करतो, तेव्हा सर्वाधिक उत्तीर्ण दर फक्त 12%?

SWE-Bench Mobile

शाओहोंगशू टीमने एक नवीन बेंचमार्क SWE-Bench Mobile लाँच केले आहे, जे विशेषतः AI Agent च्या वास्तविक मोबाइल ॲप्लिकेशन कोडबेसवरील कामगिरीचे मूल्यांकन करण्यासाठी आहे. याचे निष्कर्ष विचार करायला लावणारे आहेत: अगदी टॉपच्या AI Agent चा करोडो वापरकर्त्यांच्या App च्या कोडबेसमध्ये सर्वाधिक उत्तीर्ण दर फक्त 12% आहे.

चाचणीचे दृश्य

SWE-Bench Mobile म्हणजे काय?

बेंचमार्क परिचय

SWE-Bench Mobile हे मोबाइल ॲप्लिकेशन डेव्हलपमेंटसाठी कोड दुरुस्ती बेंचमार्क आहे. यात वास्तविक मोबाइल ॲप्लिकेशनमधील बग फिक्सिंग कार्यांचा समावेश आहे, ज्यामध्ये AI Agent सक्षम असणे आवश्यक आहे:

  • जटिल मोबाइल ॲप्लिकेशन कोड स्ट्रक्चर समजून घेणे
  • समस्येचे मूळ कारण शोधणे
  • योग्य दुरुस्ती कोड तयार करणे
  • दुरुस्तीमुळे नवीन समस्या उद्भवणार नाहीत याची खात्री करणे

चाचणी निकाल

चाचणी निकाल

चाचणीमध्ये, अनेक मुख्य AI Agent ची कामगिरी खालीलप्रमाणे आहे:

  • सर्वोत्तम कामगिरी: 12% उत्तीर्ण दर
  • सरासरी पातळी: 5-8% उत्तीर्ण दर
  • काही मॉडेल्स: 0% च्या जवळपास उत्तीर्ण दर

हा निकाल पारंपरिक SWE-Bench वरील कामगिरीपेक्षा खूपच कमी आहे.

हे इतके कठीण का आहे?

आव्हान विश्लेषण

मोबाइल ॲप्लिकेशन कोडबेसच्या विशिष्टतेमुळे अतिरिक्त आव्हाने येतात:

  • मल्टी-एंड ॲडॉप्टेशन: iOS आणि Android प्लॅटफॉर्म दोन्हीचा विचार करणे आवश्यक आहे.
  • जटिल अवलंबित्व: मोबाइल ॲप्लिकेशनच्या मॉड्यूल्समध्ये उच्च कपलिंग असते.
  • कार्यक्षमतेवरील मर्यादा: मोबाइल डिव्हाइसमध्ये मर्यादित संसाधने असतात, त्यामुळे कोड ऑप्टिमायझेशनची आवश्यकता जास्त असते.
  • UI लॉजिकची जटिलता: इंटरफेस इंटरॅक्शन कोडचे स्थिर विश्लेषण करणे कठीण आहे.

पारंपरिक बेंचमार्कशी तुलना

तुलनात्मक विश्लेषण

पारंपरिक SWE-Bench च्या तुलनेत, Mobile आवृत्तीची कठीणता लक्षणीयरीत्या वाढली आहे:

  • कोडबेसचा आकार मोठा आहे.
  • व्यवसाय लॉजिक अधिक जटिल आहे.
  • चाचणी प्रकरणे उत्तीर्ण होणे अधिक कठीण आहे.
  • संदर्भ विंडोची आवश्यकता जास्त आहे.

उद्योगासाठी महत्त्व

उद्योगासाठी महत्त्व

या बेंचमार्क चाचणीने वास्तविक औद्योगिक परिस्थितीत AI Agent च्या मर्यादा उघड केल्या आहेत. जरी AI ने कोड जनरेशनमध्ये झपाट्याने प्रगती केली असली, तरी मोठे आणि जटिल वास्तविक प्रकल्प हाताळताना अजून बराच पल्ला गाठायचा आहे.

भविष्यातील दृष्टीकोन

भविष्यातील दृष्टीकोन

SWE-Bench Mobile चे प्रकाशन AI प्रोग्रामिंग साधनांच्या विकासासाठी एक महत्त्वाचे मापदंड प्रदान करते. हे आपल्याला आठवण करून देते:

  • AI-सहाय्यित प्रोग्रामिंगला अजूनही मानवी देखरेखीची आवश्यकता आहे.
  • जटिल प्रकल्पांना अधिक स्मार्ट संदर्भातील समजूतदारपणा आवश्यक आहे.
  • मॉडेल क्षमतेत सुधारणा करण्यासाठी खूप वाव आहे.

संसाधनांची लिंक

संसाधने

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy सुधारणा मार्गदर्शक: कसे मिळवायचे चमकदार किंवदंती स्तराचे पाळीव प्राणी

Claude Code Buddy सुधारणा मार्गदर्शक: कसे मिळवायचे चमकदार किंवदंती स्तराचे पाळीव प्राणी 2026年4月1日,Anthropic 在 Claude Cod...

Obsidian ने Defuddle लॉन्च केला, Obsidian Web Clipper ला एक नवीन उंचीवर नेलेTechnology

Obsidian ने Defuddle लॉन्च केला, Obsidian Web Clipper ला एक नवीन उंचीवर नेले

Obsidian ने Defuddle लॉन्च केला, Obsidian Web Clipper ला एक नवीन उंचीवर नेले मी नेहमीच Obsidian च्या मुख्य तत्त्वांवर प...

OpenAI अचानक 'तीन-एक' ची घोषणा करते: ब्राउझर + प्रोग्रामिंग + ChatGPT एकत्रित, आतमध्ये मान्य केले की गेल्या वर्षी चुकीचा मार्ग घेतलाTechnology

OpenAI अचानक 'तीन-एक' ची घोषणा करते: ब्राउझर + प्रोग्रामिंग + ChatGPT एकत्रित, आतमध्ये मान्य केले की गेल्या वर्षी चुकीचा मार्ग घेतला

OpenAI अचानक 'तीन-एक' ची घोषणा करते: ब्राउझर + प्रोग्रामिंग + ChatGPT एकत्रित, आतमध्ये मान्य केले की गेल्या वर्षी चुकीचा...

2026, स्वतःला 'आत्मशिस्त' देण्याची गरज नाही! या 8 लहान गोष्टी करा, आरोग्य आपोआप येईलHealth

2026, स्वतःला 'आत्मशिस्त' देण्याची गरज नाही! या 8 लहान गोष्टी करा, आरोग्य आपोआप येईल

2026, स्वतःला 'आत्मशिस्त' देण्याची गरज नाही! या 8 लहान गोष्टी करा, आरोग्य आपोआप येईल नवीन वर्षाची सुरुवात झाली आहे, गेल...

त्या मेहनतीने वजन कमी करण्याचा प्रयत्न करणाऱ्या मातांना, नक्कीच इथेच अडचण येतेHealth

त्या मेहनतीने वजन कमी करण्याचा प्रयत्न करणाऱ्या मातांना, नक्कीच इथेच अडचण येते

त्या मेहनतीने वजन कमी करण्याचा प्रयत्न करणाऱ्या मातांना, नक्कीच इथेच अडचण येते मार्चचा मध्य गेला आहे, तुमचा वजन कमी करण...

📝
Technology

AI ब्राउझर 24 तास स्थिर चालवण्याची मार्गदर्शिका

AI ब्राउझर 24 तास स्थिर चालवण्याची मार्गदर्शिका या ट्यूटोरियलमध्ये स्थिर, दीर्घकालीन AI ब्राउझर वातावरण कसे तयार करावे ह...