Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?
Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?

Жижиг Улаан Ном баг нь AI Agent-ийн бодит гар утасны аппликейшний кодын сан дээрх гүйцэтгэлийг үнэлэхэд зориулагдсан SWE-Bench Mobile хэмээх шинэ шалгуур үзүүлэлтийг гаргажээ. Үр дүн нь гүн гүнзгий санаа төрүүлж байна: хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн шилдэг AI Agent-уудын хувьд ч гэсэн хамгийн өндөр амжилт нь ердөө 12% байна.

SWE-Bench Mobile гэж юу вэ?

SWE-Bench Mobile нь гар утасны аппликейшн хөгжүүлэлтэд зориулсан кодын засварын шалгуур үзүүлэлт юм. Энэ нь бодит гар утасны аппликейшний алдаа засварын ажлуудыг агуулдаг бөгөөд AI Agent-аас дараах зүйлийг шаарддаг:
- Гар утасны аппликейшний кодын нарийн төвөгтэй бүтцийг ойлгох
- Асуудлын үндсийг тодорхойлох
- Зөв засварын кодыг үүсгэх
- Засвар нь шинэ асуудал үүсгэхгүй байхыг баталгаажуулах
Тестийн үр дүн

Тестийн явцад хэд хэдэн гол AI Agent-ууд дараах байдлаар ажилласан:
- Хамгийн сайн гүйцэтгэл: 12% амжилт
- Дундаж түвшин: 5-8% амжилт
- Зарим загвар: 0% -д ойрхон амжилт
Энэ үр дүн нь уламжлалт SWE-Bench дээрх гүйцэтгэлээс хамаагүй доогуур байна.
Яагаад ийм хэцүү байна вэ?

Гар утасны аппликейшний кодын сангийн онцлог нь нэмэлт сорилтуудыг авчирдаг:
- Олон төхөөрөмжид тохируулах: iOS болон Android платформыг хоёуланг нь харгалзан үзэх шаардлагатай
- Нарийн төвөгтэй хамаарал: Гар утасны аппликейшний модулиудын хоорондын холбоо өндөр
- Гүйцэтгэлийн хязгаарлалт: Гар утасны төхөөрөмжийн нөөц хязгаарлагдмал, кодын оновчлолын шаардлага өндөр
- UI логик нарийн төвөгтэй: Интерфэйсийн харилцан үйлчлэлийн кодыг статик байдлаар шинжлэхэд хэцүү
Уламжлалт шалгуур үзүүлэлттэй харьцуулах нь

Уламжлалт SWE-Bench-тэй харьцуулахад Mobile хувилбарын хүндрэл мэдэгдэхүйц нэмэгдсэн:
- Кодын сангийн хэмжээ том
- Бизнесийн логик илүү төвөгтэй
- Тестийн жишээг давах нь илүү хэцүү
- Контекстийн цонхны шаардлага өндөр
Салбарын ач холбогдол

Энэхүү шалгуур үзүүлэлт нь AI Agent-ийн бодит үйлдвэрлэлийн орчинд хэр хязгаарлагдмал болохыг харуулж байна. Хэдийгээр AI код үүсгэх тал дээр хурдацтай ахиц дэвшил гаргаж байгаа ч том хэмжээний, нарийн төвөгтэй бодит төслүүдийг шийдвэрлэхэд урт зам туулах хэрэгтэй хэвээр байна.
Ирээдүйн төлөв

SWE-Bench Mobile-ийг гаргаснаар AI програмчлалын хэрэгслийн хөгжилд чухал хэмжүүр болж байна. Энэ нь бидэнд дараах зүйлийг сануулж байна:
- AI-ийн тусламжтай програмчлал нь хүний хяналтыг шаарддаг
- Нарийн төвөгтэй төслүүд нь илүү ухаалаг контекстийн ойлголтыг шаарддаг
- Загварын чадавхийг сайжруулах орон зай их байна
Нөөцийн холбоос

- Эрдэм шинжилгээний өгүүлэл: https://arxiv.org/abs/xxxxx
- GitHub: https://github.com/xiaohongshu/swe-bench-mobile





