Xiao Hong Shu မှ SWE-Bench Mobile ကိုထုတ်ဝေ: AI Agent သည် သန်းပေါင်းများစွာ အသုံးပြုသူ App ကုဒ်ကို ရင်ဆိုင်ရသောအခါ အောင်မြင်မှုနှုန်းသည် ၁၂% သာရှိသနည်း။

SWE-Bench Mobile

Xiao Hong Shu အဖွဲ့သည် AI Agent ၏ စစ်မှန်သော မိုဘိုင်းအပလီကေးရှင်းကုဒ်အပေါ် စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန်အတွက် အထူးပြုလုပ်ထားသော စံနှုန်းအသစ်ဖြစ်သည့် SWE-Bench Mobile ကို ထုတ်ဝေခဲ့သည်။ ရလဒ်များသည် စဉ်းစားစရာဖြစ်သည်- ထိပ်တန်း AI Agent ပင်လျှင် သန်းပေါင်းများစွာ အသုံးပြုသူ App ၏ ကုဒ်ကို ရင်ဆိုင်ရသောအခါ အောင်မြင်မှုနှုန်းသည် ၁၂% သာရှိသည်။

စမ်းသပ်မှုမြင်ကွင်း

SWE-Bench Mobile ဆိုတာဘာလဲ။

စံနှုန်းမိတ်ဆက်

SWE-Bench Mobile သည် မိုဘိုင်းအပလီကေးရှင်းဖွံ့ဖြိုးတိုးတက်မှုအတွက် ကုဒ်ပြင်ဆင်ခြင်းစံနှုန်းဖြစ်သည်။ ၎င်းတွင် စစ်မှန်သော မိုဘိုင်းအပလီကေးရှင်း Bug ပြင်ဆင်ခြင်းလုပ်ငန်းများပါဝင်ပြီး AI Agent အား အောက်ပါတို့ကို လုပ်ဆောင်နိုင်ရန် လိုအပ်သည်-

ရှုပ်ထွေးသော မိုဘိုင်းအပလီကေးရှင်းကုဒ်ဖွဲ့စည်းပုံကို နားလည်ခြင်း
ပြဿနာ၏ အရင်းအမြစ်ကို ရှာဖွေခြင်း
မှန်ကန်သော ပြင်ဆင်ခြင်းကုဒ်ကို ထုတ်လုပ်ခြင်း
ပြင်ဆင်ခြင်းသည် ပြဿနာအသစ်များကို မိတ်ဆက်ခြင်းမရှိကြောင်း သေချာစေခြင်း

စမ်းသပ်မှုရလဒ်များ

စမ်းသပ်မှုတွင်၊ အဓိက AI Agent အများအပြား၏ စွမ်းဆောင်ရည်မှာ အောက်ပါအတိုင်းဖြစ်သည်-

အကောင်းဆုံးစွမ်းဆောင်ရည်- ၁၂% အောင်မြင်မှုနှုန်း
ပျမ်းမျှအဆင့်- ၅-၈% အောင်မြင်မှုနှုန်း
မော်ဒယ်အချို့- ၀% အောင်မြင်မှုနှုန်းနှင့် နီးစပ်သည်

ဤရလဒ်သည် ရိုးရာ SWE-Bench တွင် စွမ်းဆောင်ရည်ထက် များစွာနိမ့်သည်။

ဘာကြောင့်ဒီလောက်ခက်ခဲရတာလဲ။

စိန်ခေါ်မှုခွဲခြမ်းစိတ်ဖြာခြင်း

မိုဘိုင်းအပလီကေးရှင်းကုဒ်၏ သီးခြားလက္ခဏာများသည် နောက်ထပ်စိန်ခေါ်မှုများကို ယူဆောင်လာသည်-

Multi-platform လိုက်လျောညီထွေဖြစ်အောင်ပြုလုပ်ခြင်း- iOS နှင့် Android platform နှစ်ခုလုံးကို တစ်ပြိုင်နက်တည်း ထည့်သွင်းစဉ်းစားရန်လိုအပ်သည်
ရှုပ်ထွေးသော မှီခိုဆက်နွယ်မှုများ- မိုဘိုင်းအပလီကေးရှင်း၏ module များအကြား ချိတ်ဆက်မှု မြင့်မားသည်
စွမ်းဆောင်ရည်ကန့်သတ်ချက်များ- မိုဘိုင်းကိရိယာအရင်းအမြစ်များသည် အကန့်အသတ်ရှိပြီး ကုဒ်ကို အကောင်းဆုံးဖြစ်အောင်ပြုလုပ်ရန် လိုအပ်ချက်များ မြင့်မားသည်
ရှုပ်ထွေးသော UI ယုတ္တိဗေဒ- မျက်နှာပြင်အပြန်အလှန်တုံ့ပြန်မှုကုဒ်ကို တည်ငြိမ်စွာခွဲခြမ်းစိတ်ဖြာရန်ခက်ခဲသည်

ရိုးရာစံနှုန်းများနှင့် နှိုင်းယှဉ်ခြင်း

နှိုင်းယှဉ်ခွဲခြမ်းစိတ်ဖြာခြင်း

ရိုးရာ SWE-Bench နှင့် နှိုင်းယှဉ်ပါက Mobile ဗားရှင်း၏ အခက်အခဲသည် သိသိသာသာ တိုးလာသည်-

ကုဒ်အရွယ်အစား ပိုကြီးသည်
လုပ်ငန်းယုတ္တိဗေဒ ပိုရှုပ်ထွေးသည်
စမ်းသပ်မှုအခြေအနေများကို ကျော်ဖြတ်ရန် ပိုခက်ခဲသည်
Context window လိုအပ်ချက်များ ပိုမိုမြင့်မားသည်

စက်မှုလုပ်ငန်းဆိုင်ရာ အရေးပါမှု

ဤစံနှုန်းစမ်းသပ်မှုသည် စစ်မှန်သော စက်မှုလုပ်ငန်းမြင်ကွင်းများတွင် AI Agent ၏ ကန့်သတ်ချက်များကို ဖော်ထုတ်သည်။ ကုဒ်ထုတ်လုပ်ခြင်းတွင် AI သည် အလွန်လျင်မြန်စွာ တိုးတက်နေသော်လည်း ကြီးမားပြီး ရှုပ်ထွေးသော စစ်မှန်သော ပရောဂျက်များကို ကိုင်တွယ်ဖြေရှင်းရာတွင် သွားရန်လမ်းများစွာ ကျန်ရှိနေသေးသည်။

အနာဂတ်အလားအလာ

SWE-Bench Mobile ၏ ထုတ်ဝေမှုသည် AI ပရိုဂရမ်ရေးကိရိယာများ ဖွံ့ဖြိုးတိုးတက်မှုအတွက် အရေးကြီးသော တိုင်းတာမှုစံနှုန်းကို ပေးပါသည်။ ၎င်းသည် ကျွန်ုပ်တို့အား သတိပေးသည်-