షావోహాంగ్‌షు SWE-Bench Mobile ను విడుదల చేసింది: AI ఏజెంట్ కోట్లాది మంది వినియోగదారుల App కోడ్ బేస్‌ను ఎదుర్కొన్నప్పుడు, గరిష్ట ఉత్తీర్ణత రేటు 12% మాత్రమేనా?

SWE-Bench Mobile

నిజమైన మొబైల్ అప్లికేషన్ కోడ్ బేస్‌లలో AI ఏజెంట్ పనితీరును అంచనా వేయడానికి ప్రత్యేకంగా షావోహాంగ్‌షు బృందం కొత్త బెంచ్‌మార్క్ SWE-Bench Mobileను విడుదల చేసింది. ఫలితాలు ఆలోచింపజేసే విధంగా ఉన్నాయి: అగ్రశ్రేణి AI ఏజెంట్ కూడా కోట్లాది మంది వినియోగదారుల App కోడ్ బేస్‌ను ఎదుర్కొన్నప్పుడు, గరిష్ట ఉత్తీర్ణత రేటు 12% మాత్రమే.

పరీక్ష దృశ్యం

SWE-Bench Mobile అంటే ఏమిటి?

గుర్తింపు పరిచయం

SWE-Bench Mobile అనేది మొబైల్ అప్లికేషన్ డెవలప్‌మెంట్ కోసం కోడ్ ఫిక్సింగ్ బెంచ్‌మార్క్. ఇది నిజమైన మొబైల్ అప్లికేషన్ బగ్ ఫిక్సింగ్ టాస్క్‌లను కలిగి ఉంటుంది, దీనికి AI ఏజెంట్ సామర్థ్యం కలిగి ఉండాలి:

సంక్లిష్టమైన మొబైల్ అప్లికేషన్ కోడ్ నిర్మాణాన్ని అర్థం చేసుకోవడం
సమస్య మూలాన్ని గుర్తించడం
సరైన ఫిక్సింగ్ కోడ్‌ను ఉత్పత్తి చేయడం
ఫిక్సింగ్ కొత్త సమస్యలను పరిచయం చేయకుండా చూసుకోవడం

పరీక్ష ఫలితాలు

పరీక్షలో, అనేక ప్రధాన AI ఏజెంట్ల పనితీరు ఈ విధంగా ఉంది:

ఉత్తమ పనితీరు: 12% ఉత్తీర్ణత రేటు
సగటు స్థాయి: 5-8% ఉత్తీర్ణత రేటు
కొన్ని నమూనాలు: 0% ఉత్తీర్ణత రేటుకు దగ్గరగా

ఈ ఫలితం సాంప్రదాయ SWE-Benchపై పనితీరు కంటే చాలా తక్కువగా ఉంది.

ఇది ఎందుకు అంత కష్టం?

సవాలు విశ్లేషణ

మొబైల్ అప్లికేషన్ కోడ్ బేస్ యొక్క ప్రత్యేకత అదనపు సవాళ్లను తెస్తుంది:

బహుళ-చివరి అనుకూలత: iOS మరియు Android ప్లాట్‌ఫారమ్‌లను ఒకేసారి పరిగణనలోకి తీసుకోవాలి
సంక్లిష్టమైన ఆధారపడటం: మొబైల్ అప్లికేషన్ మాడ్యూళ్ల మధ్య అనుసంధానం ఎక్కువగా ఉంటుంది
పనితీరు పరిమితులు: మొబైల్ పరికర వనరులు పరిమితం, కోడ్ ఆప్టిమైజేషన్ అవసరం ఎక్కువ
UI లాజిక్ సంక్లిష్టత: ఇంటర్‌ఫేస్ ఇంటరాక్షన్ కోడ్‌ను స్థిరంగా విశ్లేషించడం కష్టం

సాంప్రదాయ బెంచ్‌మార్క్‌లతో పోలిక

పోలిక విశ్లేషణ

సాంప్రదాయ SWE-Benchతో పోలిస్తే, Mobile వెర్షన్ యొక్క కష్టం గణనీయంగా పెరిగింది:

కోడ్ బేస్ పరిమాణం పెద్దది
వ్యాపార తర్కం మరింత సంక్లిష్టంగా ఉంటుంది
పరీక్ష సందర్భాలను ఉత్తీర్ణత సాధించడం కష్టం
సందర్భ విండో అవసరం ఎక్కువ

పరిశ్రమ ప్రాముఖ్యత

ఈ బెంచ్‌మార్క్ నిజమైన పారిశ్రామిక దృశ్యాలలో AI ఏజెంట్ యొక్క పరిమితులను వెల్లడిస్తుంది. కోడ్ ఉత్పత్తిలో AI వేగంగా అభివృద్ధి చెందుతున్నప్పటికీ, పెద్ద, సంక్లిష్టమైన నిజమైన ప్రాజెక్ట్‌లను నిర్వహించేటప్పుడు, ఇంకా చాలా దూరం ప్రయాణించాల్సి ఉంది.