షావోహాంగ్షు SWE-Bench Mobile ను విడుదల చేసింది: AI ఏజెంట్ కోట్లాది మంది వినియోగదారుల App కోడ్ బేస్ను ఎదుర్కొన్నప్పుడు, గరిష్ట ఉత్తీర్ణత రేటు 12% మాత్రమేనా?
షావోహాంగ్షు SWE-Bench Mobile ను విడుదల చేసింది: AI ఏజెంట్ కోట్లాది మంది వినియోగదారుల App కోడ్ బేస్ను ఎదుర్కొన్నప్పుడు, గరిష్ట ఉత్తీర్ణత రేటు 12% మాత్రమేనా?

నిజమైన మొబైల్ అప్లికేషన్ కోడ్ బేస్లలో AI ఏజెంట్ పనితీరును అంచనా వేయడానికి ప్రత్యేకంగా షావోహాంగ్షు బృందం కొత్త బెంచ్మార్క్ SWE-Bench Mobileను విడుదల చేసింది. ఫలితాలు ఆలోచింపజేసే విధంగా ఉన్నాయి: అగ్రశ్రేణి AI ఏజెంట్ కూడా కోట్లాది మంది వినియోగదారుల App కోడ్ బేస్ను ఎదుర్కొన్నప్పుడు, గరిష్ట ఉత్తీర్ణత రేటు 12% మాత్రమే.

SWE-Bench Mobile అంటే ఏమిటి?

SWE-Bench Mobile అనేది మొబైల్ అప్లికేషన్ డెవలప్మెంట్ కోసం కోడ్ ఫిక్సింగ్ బెంచ్మార్క్. ఇది నిజమైన మొబైల్ అప్లికేషన్ బగ్ ఫిక్సింగ్ టాస్క్లను కలిగి ఉంటుంది, దీనికి AI ఏజెంట్ సామర్థ్యం కలిగి ఉండాలి:
- సంక్లిష్టమైన మొబైల్ అప్లికేషన్ కోడ్ నిర్మాణాన్ని అర్థం చేసుకోవడం
- సమస్య మూలాన్ని గుర్తించడం
- సరైన ఫిక్సింగ్ కోడ్ను ఉత్పత్తి చేయడం
- ఫిక్సింగ్ కొత్త సమస్యలను పరిచయం చేయకుండా చూసుకోవడం
పరీక్ష ఫలితాలు

పరీక్షలో, అనేక ప్రధాన AI ఏజెంట్ల పనితీరు ఈ విధంగా ఉంది:
- ఉత్తమ పనితీరు: 12% ఉత్తీర్ణత రేటు
- సగటు స్థాయి: 5-8% ఉత్తీర్ణత రేటు
- కొన్ని నమూనాలు: 0% ఉత్తీర్ణత రేటుకు దగ్గరగా
ఈ ఫలితం సాంప్రదాయ SWE-Benchపై పనితీరు కంటే చాలా తక్కువగా ఉంది.
ఇది ఎందుకు అంత కష్టం?

మొబైల్ అప్లికేషన్ కోడ్ బేస్ యొక్క ప్రత్యేకత అదనపు సవాళ్లను తెస్తుంది:
- బహుళ-చివరి అనుకూలత: iOS మరియు Android ప్లాట్ఫారమ్లను ఒకేసారి పరిగణనలోకి తీసుకోవాలి
- సంక్లిష్టమైన ఆధారపడటం: మొబైల్ అప్లికేషన్ మాడ్యూళ్ల మధ్య అనుసంధానం ఎక్కువగా ఉంటుంది
- పనితీరు పరిమితులు: మొబైల్ పరికర వనరులు పరిమితం, కోడ్ ఆప్టిమైజేషన్ అవసరం ఎక్కువ
- UI లాజిక్ సంక్లిష్టత: ఇంటర్ఫేస్ ఇంటరాక్షన్ కోడ్ను స్థిరంగా విశ్లేషించడం కష్టం
సాంప్రదాయ బెంచ్మార్క్లతో పోలిక

సాంప్రదాయ SWE-Benchతో పోలిస్తే, Mobile వెర్షన్ యొక్క కష్టం గణనీయంగా పెరిగింది:
- కోడ్ బేస్ పరిమాణం పెద్దది
- వ్యాపార తర్కం మరింత సంక్లిష్టంగా ఉంటుంది
- పరీక్ష సందర్భాలను ఉత్తీర్ణత సాధించడం కష్టం
- సందర్భ విండో అవసరం ఎక్కువ
పరిశ్రమ ప్రాముఖ్యత

ఈ బెంచ్మార్క్ నిజమైన పారిశ్రామిక దృశ్యాలలో AI ఏజెంట్ యొక్క పరిమితులను వెల్లడిస్తుంది. కోడ్ ఉత్పత్తిలో AI వేగంగా అభివృద్ధి చెందుతున్నప్పటికీ, పెద్ద, సంక్లిష్టమైన నిజమైన ప్రాజెక్ట్లను నిర్వహించేటప్పుడు, ఇంకా చాలా దూరం ప్రయాణించాల్సి ఉంది.
భవిష్యత్తు దృక్పథం

SWE-Bench Mobile విడుదల AI ప్రోగ్రామింగ్ సాధనాల అభివృద్ధికి ఒక ముఖ్యమైన కొలమానాన్ని అందిస్తుంది. ఇది మనకు గుర్తు చేస్తుంది:
- AI సహాయక ప్రోగ్రామింగ్కు ఇప్పటికీ మానవ పర్యవేక్షణ అవసరం
- సంక్లిష్ట ప్రాజెక్ట్లకు మరింత తెలివైన సందర్భ అవగాహన అవసరం
- నమూనా సామర్థ్యం మెరుగుపరచడానికి ఇంకా చాలా అవకాశం ఉంది
వనరుల లింక్లు






