શાઓહૉંગશુએ SWE-Bench Mobile રજૂ કર્યું: જ્યારે AI એજન્ટ અબજો વપરાશકર્તાઓવાળા App કોડબેઝનો સામનો કરે છે, ત્યારે મહત્તમ સફળતા દર માત્ર 12% છે?

SWE-Bench Mobile

શાઓહૉંગશુ ટીમ દ્વારા એક નવું બેન્ચમાર્ક SWE-Bench Mobile રજૂ કરવામાં આવ્યું છે, જે ખાસ કરીને વાસ્તવિક મોબાઇલ એપ્લિકેશન કોડબેઝ પર AI એજન્ટના પ્રદર્શનનું મૂલ્યાંકન કરવા માટે છે. પરિણામો વિચારવા જેવા છે: અબજો વપરાશકર્તાઓવાળા Appના કોડબેઝનો સામનો કરતી વખતે ટોચના AI એજન્ટનો મહત્તમ સફળતા દર પણ માત્ર 12% છે.

પરીક્ષણ દૃશ્ય

SWE-Bench Mobile શું છે?

બેઝિક પરિચય

SWE-Bench Mobile એ મોબાઇલ એપ્લિકેશન ડેવલપમેન્ટ માટેનું કોડ ફિક્સિંગ બેન્ચમાર્ક છે. તેમાં વાસ્તવિક મોબાઇલ એપ્લિકેશન બગ ફિક્સિંગ કાર્યો શામેલ છે, જેમાં AI એજન્ટને આની જરૂર પડે છે:

જટિલ મોબાઇલ એપ્લિકેશન કોડ સ્ટ્રક્ચરને સમજવું
સમસ્યાના મૂળ કારણને ઓળખવું
યોગ્ય ફિક્સિંગ કોડ જનરેટ કરવો
ખાતરી કરવી કે ફિક્સિંગથી કોઈ નવી સમસ્યાઓ ઊભી ન થાય

પરીક્ષણ પરિણામો

પરીક્ષણમાં, ઘણા મુખ્ય AI એજન્ટોનું પ્રદર્શન નીચે મુજબ છે:

શ્રેષ્ઠ પ્રદર્શન: 12% સફળતા દર
સરેરાશ સ્તર: 5-8% સફળતા દર
કેટલાક મોડેલો: 0% ની નજીક સફળતા દર

આ પરિણામ પરંપરાગત SWE-Bench પરના પ્રદર્શન કરતા ઘણું ઓછું છે.

આટલું મુશ્કેલ કેમ છે?

પડકાર વિશ્લેષણ

મોબાઇલ એપ્લિકેશન કોડબેઝની વિશેષતા વધારાના પડકારો લાવે છે:

મલ્ટી-એન્ડ એડેપ્ટેશન: iOS અને Android પ્લેટફોર્મ બંનેને ધ્યાનમાં લેવાની જરૂર છે
જટિલ અવલંબન સંબંધો: મોબાઇલ એપ્લિકેશનના મોડ્યુલો વચ્ચે ઉચ્ચ જોડાણ
પર્ફોર્મન્સ અવરોધો: મોબાઇલ ઉપકરણોમાં મર્યાદિત સંસાધનો હોય છે, કોડ ઓપ્ટિમાઇઝેશનની જરૂરિયાતો ઊંચી હોય છે
UI લોજિક જટિલ: ઇન્ટરફેસ ઇન્ટરેક્શન કોડનું સ્થિર વિશ્લેષણ કરવું મુશ્કેલ છે

પરંપરાગત બેન્ચમાર્ક સાથે સરખામણી

સરખામણી વિશ્લેષણ

પરંપરાગત SWE-Benchની સરખામણીમાં, Mobile વર્ઝનની મુશ્કેલીમાં નોંધપાત્ર વધારો થયો છે:

કોડબેઝનું કદ મોટું છે
બિઝનેસ લોજિક વધુ જટિલ છે
પરીક્ષણ કેસ પાસ કરવા વધુ મુશ્કેલ છે
સંદર્ભ વિન્ડોની જરૂરિયાતો વધારે છે

ઉદ્યોગ મહત્વ

આ બેન્ચમાર્ક પરીક્ષણ વાસ્તવિક ઔદ્યોગિક દૃશ્યોમાં AI એજન્ટની મર્યાદાઓને ઉજાગર કરે છે. જોકે કોડ જનરેશનમાં AI ઝડપથી આગળ વધી રહ્યું છે, મોટા અને જટિલ વાસ્તવિક પ્રોજેક્ટ્સને હેન્ડલ કરવામાં હજી ઘણી લાંબી મજલ કાપવાની બાકી છે.