Xiao Hong Shu မှ SWE-Bench Mobile ကိုထုတ်ဝေ: AI Agent သည် သန်းပေါင်းများစွာ အသုံးပြုသူ App ကုဒ်ကို ရင်ဆိုင်ရသောအခါ အောင်မြင်မှုနှုန်းသည် ၁၂% သာရှိသနည်း။
Xiao Hong Shu မှ SWE-Bench Mobile ကိုထုတ်ဝေ: AI Agent သည် သန်းပေါင်းများစွာ အသုံးပြုသူ App ကုဒ်ကို ရင်ဆိုင်ရသောအခါ အောင်မြင်မှုနှုန်းသည် ၁၂% သာရှိသနည်း။

Xiao Hong Shu အဖွဲ့သည် AI Agent ၏ စစ်မှန်သော မိုဘိုင်းအပလီကေးရှင်းကုဒ်အပေါ် စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန်အတွက် အထူးပြုလုပ်ထားသော စံနှုန်းအသစ်ဖြစ်သည့် SWE-Bench Mobile ကို ထုတ်ဝေခဲ့သည်။ ရလဒ်များသည် စဉ်းစားစရာဖြစ်သည်- ထိပ်တန်း AI Agent ပင်လျှင် သန်းပေါင်းများစွာ အသုံးပြုသူ App ၏ ကုဒ်ကို ရင်ဆိုင်ရသောအခါ အောင်မြင်မှုနှုန်းသည် ၁၂% သာရှိသည်။

SWE-Bench Mobile ဆိုတာဘာလဲ။

SWE-Bench Mobile သည် မိုဘိုင်းအပလီကေးရှင်းဖွံ့ဖြိုးတိုးတက်မှုအတွက် ကုဒ်ပြင်ဆင်ခြင်းစံနှုန်းဖြစ်သည်။ ၎င်းတွင် စစ်မှန်သော မိုဘိုင်းအပလီကေးရှင်း Bug ပြင်ဆင်ခြင်းလုပ်ငန်းများပါဝင်ပြီး AI Agent အား အောက်ပါတို့ကို လုပ်ဆောင်နိုင်ရန် လိုအပ်သည်-
- ရှုပ်ထွေးသော မိုဘိုင်းအပလီကေးရှင်းကုဒ်ဖွဲ့စည်းပုံကို နားလည်ခြင်း
- ပြဿနာ၏ အရင်းအမြစ်ကို ရှာဖွေခြင်း
- မှန်ကန်သော ပြင်ဆင်ခြင်းကုဒ်ကို ထုတ်လုပ်ခြင်း
- ပြင်ဆင်ခြင်းသည် ပြဿနာအသစ်များကို မိတ်ဆက်ခြင်းမရှိကြောင်း သေချာစေခြင်း
စမ်းသပ်မှုရလဒ်များ

စမ်းသပ်မှုတွင်၊ အဓိက AI Agent အများအပြား၏ စွမ်းဆောင်ရည်မှာ အောက်ပါအတိုင်းဖြစ်သည်-
- အကောင်းဆုံးစွမ်းဆောင်ရည်- ၁၂% အောင်မြင်မှုနှုန်း
- ပျမ်းမျှအဆင့်- ၅-၈% အောင်မြင်မှုနှုန်း
- မော်ဒယ်အချို့- ၀% အောင်မြင်မှုနှုန်းနှင့် နီးစပ်သည်
ဤရလဒ်သည် ရိုးရာ SWE-Bench တွင် စွမ်းဆောင်ရည်ထက် များစွာနိမ့်သည်။
ဘာကြောင့်ဒီလောက်ခက်ခဲရတာလဲ။

မိုဘိုင်းအပလီကေးရှင်းကုဒ်၏ သီးခြားလက္ခဏာများသည် နောက်ထပ်စိန်ခေါ်မှုများကို ယူဆောင်လာသည်-
- Multi-platform လိုက်လျောညီထွေဖြစ်အောင်ပြုလုပ်ခြင်း- iOS နှင့် Android platform နှစ်ခုလုံးကို တစ်ပြိုင်နက်တည်း ထည့်သွင်းစဉ်းစားရန်လိုအပ်သည်
- ရှုပ်ထွေးသော မှီခိုဆက်နွယ်မှုများ- မိုဘိုင်းအပလီကေးရှင်း၏ module များအကြား ချိတ်ဆက်မှု မြင့်မားသည်
- စွမ်းဆောင်ရည်ကန့်သတ်ချက်များ- မိုဘိုင်းကိရိယာအရင်းအမြစ်များသည် အကန့်အသတ်ရှိပြီး ကုဒ်ကို အကောင်းဆုံးဖြစ်အောင်ပြုလုပ်ရန် လိုအပ်ချက်များ မြင့်မားသည်
- ရှုပ်ထွေးသော UI ယုတ္တိဗေဒ- မျက်နှာပြင်အပြန်အလှန်တုံ့ပြန်မှုကုဒ်ကို တည်ငြိမ်စွာခွဲခြမ်းစိတ်ဖြာရန်ခက်ခဲသည်
ရိုးရာစံနှုန်းများနှင့် နှိုင်းယှဉ်ခြင်း

ရိုးရာ SWE-Bench နှင့် နှိုင်းယှဉ်ပါက Mobile ဗားရှင်း၏ အခက်အခဲသည် သိသိသာသာ တိုးလာသည်-
- ကုဒ်အရွယ်အစား ပိုကြီးသည်
- လုပ်ငန်းယုတ္တိဗေဒ ပိုရှုပ်ထွေးသည်
- စမ်းသပ်မှုအခြေအနေများကို ကျော်ဖြတ်ရန် ပိုခက်ခဲသည်
- Context window လိုအပ်ချက်များ ပိုမိုမြင့်မားသည်
စက်မှုလုပ်ငန်းဆိုင်ရာ အရေးပါမှု

ဤစံနှုန်းစမ်းသပ်မှုသည် စစ်မှန်သော စက်မှုလုပ်ငန်းမြင်ကွင်းများတွင် AI Agent ၏ ကန့်သတ်ချက်များကို ဖော်ထုတ်သည်။ ကုဒ်ထုတ်လုပ်ခြင်းတွင် AI သည် အလွန်လျင်မြန်စွာ တိုးတက်နေသော်လည်း ကြီးမားပြီး ရှုပ်ထွေးသော စစ်မှန်သော ပရောဂျက်များကို ကိုင်တွယ်ဖြေရှင်းရာတွင် သွားရန်လမ်းများစွာ ကျန်ရှိနေသေးသည်။
အနာဂတ်အလားအလာ

SWE-Bench Mobile ၏ ထုတ်ဝေမှုသည် AI ပရိုဂရမ်ရေးကိရိယာများ ဖွံ့ဖြိုးတိုးတက်မှုအတွက် အရေးကြီးသော တိုင်းတာမှုစံနှုန်းကို ပေးပါသည်။ ၎င်းသည် ကျွန်ုပ်တို့အား သတိပေးသည်-
- AI အကူအညီဖြင့် ပရိုဂရမ်ရေးခြင်းသည် လူသား၏ ကြီးကြပ်မှု လိုအပ်နေသေးသည်
- ရှုပ်ထွေးသော ပရောဂျက်များသည် ပိုမိုထက်မြက်သော context နားလည်မှု လိုအပ်သည်
- မော်ဒယ်စွမ်းရည်တွင် တိုးတက်ရန် နေရာများစွာရှိသေးသည်
အရင်းအမြစ်လင့်ခ်များ






