Xiao Hongshu Yazindua SWE-Bench Mobile: Wakala wa AI Anapokabiliwa na Hifadhi ya Kanuni ya Programu ya Mamilioni ya Watumiaji, Kiwango cha Juu cha Mafanikio ni 12% Tu?
Xiao Hongshu Yazindua SWE-Bench Mobile: Wakala wa AI Anapokabiliwa na Hifadhi ya Kanuni ya Programu ya Mamilioni ya Watumiaji, Kiwango cha Juu cha Mafanikio ni 12% Tu?

Timu ya Xiao Hongshu imezindua jaribio jipya la msingi la SWE-Bench Mobile, lililoundwa mahususi kutathmini utendaji wa Wakala wa AI kwenye hifadhi halisi ya kanuni za programu za simu. Matokeo yake yanatufanya tufikiri: hata Wakala bora wa AI, anapokabiliwa na hifadhi ya kanuni ya Programu ya mamilioni ya watumiaji, kiwango cha juu cha mafanikio ni 12% tu.

SWE-Bench Mobile ni Nini?

SWE-Bench Mobile ni jaribio la msingi la kurekebisha kanuni kwa ajili ya ukuzaji wa programu za simu. Inajumuisha kazi halisi za kurekebisha hitilafu za programu za simu, zinazohitaji Wakala wa AI kuweza:
- Kuelewa muundo tata wa kanuni za programu za simu
- Kutambua chanzo cha tatizo
- Kutoa kanuni sahihi za kurekebisha
- Kuhakikisha kuwa urekebishaji hauanzishi matatizo mapya
Matokeo ya Jaribio

Katika jaribio, utendaji wa Wakala kadhaa wakuu wa AI ni kama ifuatavyo:
- Utendaji Bora:Kiwango cha mafanikio cha 12%
- Kiwango cha Wastani:Kiwango cha mafanikio cha 5-8%
- Baadhi ya Miundo:Kiwango cha mafanikio kinakaribia 0%
Matokeo haya yako chini sana kuliko utendaji kwenye SWE-Bench ya kawaida.
Kwa Nini Ni Ngumu Sana?

Upekee wa hifadhi ya kanuni za programu za simu huleta changamoto za ziada:
- Upatanifu wa Vifaa Vingi:Inahitaji kuzingatia majukwaa ya iOS na Android kwa wakati mmoja
- Mahusiano Magumu ya Utegemezi:Muunganiko kati ya moduli za programu za simu ni wa juu
- Vizuizi vya Utendaji:Rasilimali za vifaa vya simu ni chache, mahitaji ya uboreshaji wa kanuni ni ya juu
- Mantiki Ngumu ya UI:Kanuni za mwingiliano wa kiolesura ni ngumu kuchambua tuli
Ulinganisho na Jaribio la Msingi la Kawaida

Ikilinganishwa na SWE-Bench ya kawaida, toleo la Mobile lina ugumu ulioongezeka sana:
- Ukubwa wa hifadhi ya kanuni ni kubwa zaidi
- Mantiki ya biashara ni ngumu zaidi
- Kesi za majaribio ni ngumu zaidi kupita
- Mahitaji ya dirisha la muktadha ni ya juu zaidi
Umuhimu wa Sekta

Jaribio hili la msingi linaonyesha mapungufu ya Wakala wa AI katika hali halisi za kiviwanda. Ingawa AI ina maendeleo ya haraka katika utengenezaji wa kanuni, bado kuna safari ndefu ya kwenda katika kushughulikia miradi mikubwa na ngumu ya kweli.
Mtazamo wa Baadaye

Uzinduzi wa SWE-Bench Mobile hutoa kipimo muhimu kwa ukuzaji wa zana za programu za AI. Inatukumbusha:
- Usaidizi wa programu wa AI bado unahitaji usimamizi wa binadamu
- Miradi ngumu inahitaji uelewa bora wa muktadha
- Uwezo wa muundo bado una nafasi kubwa ya kuboreshwa
Viungo vya Rasilimali

- Karatasi ya Utafiti:https://arxiv.org/abs/xxxxx
- GitHub:https://github.com/xiaohongshu/swe-bench-mobile





