Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?

SWE-Bench Mobile

Жижиг Улаан Ном баг нь AI Agent-ийн бодит гар утасны аппликейшний кодын сан дээрх гүйцэтгэлийг үнэлэхэд зориулагдсан SWE-Bench Mobile хэмээх шинэ шалгуур үзүүлэлтийг гаргажээ. Үр дүн нь гүн гүнзгий санаа төрүүлж байна: хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн шилдэг AI Agent-уудын хувьд ч гэсэн хамгийн өндөр амжилт нь ердөө 12% байна.

Тестийн орчин

SWE-Bench Mobile гэж юу вэ?

Шалгуур үзүүлэлтийн танилцуулга

SWE-Bench Mobile нь гар утасны аппликейшн хөгжүүлэлтэд зориулсан кодын засварын шалгуур үзүүлэлт юм. Энэ нь бодит гар утасны аппликейшний алдаа засварын ажлуудыг агуулдаг бөгөөд AI Agent-аас дараах зүйлийг шаарддаг:

Гар утасны аппликейшний кодын нарийн төвөгтэй бүтцийг ойлгох
Асуудлын үндсийг тодорхойлох
Зөв засварын кодыг үүсгэх
Засвар нь шинэ асуудал үүсгэхгүй байхыг баталгаажуулах

Тестийн үр дүн

Тестийн явцад хэд хэдэн гол AI Agent-ууд дараах байдлаар ажилласан:

Хамгийн сайн гүйцэтгэл: 12% амжилт
Дундаж түвшин: 5-8% амжилт
Зарим загвар: 0% -д ойрхон амжилт

Энэ үр дүн нь уламжлалт SWE-Bench дээрх гүйцэтгэлээс хамаагүй доогуур байна.

Яагаад ийм хэцүү байна вэ?

Сорилтын шинжилгээ

Гар утасны аппликейшний кодын сангийн онцлог нь нэмэлт сорилтуудыг авчирдаг:

Олон төхөөрөмжид тохируулах: iOS болон Android платформыг хоёуланг нь харгалзан үзэх шаардлагатай
Нарийн төвөгтэй хамаарал: Гар утасны аппликейшний модулиудын хоорондын холбоо өндөр
Гүйцэтгэлийн хязгаарлалт: Гар утасны төхөөрөмжийн нөөц хязгаарлагдмал, кодын оновчлолын шаардлага өндөр
UI логик нарийн төвөгтэй: Интерфэйсийн харилцан үйлчлэлийн кодыг статик байдлаар шинжлэхэд хэцүү

Уламжлалт шалгуур үзүүлэлттэй харьцуулах нь

Харьцуулсан шинжилгээ

Уламжлалт SWE-Bench-тэй харьцуулахад Mobile хувилбарын хүндрэл мэдэгдэхүйц нэмэгдсэн:

Кодын сангийн хэмжээ том
Бизнесийн логик илүү төвөгтэй
Тестийн жишээг давах нь илүү хэцүү
Контекстийн цонхны шаардлага өндөр

Салбарын ач холбогдол

Энэхүү шалгуур үзүүлэлт нь AI Agent-ийн бодит үйлдвэрлэлийн орчинд хэр хязгаарлагдмал болохыг харуулж байна. Хэдийгээр AI код үүсгэх тал дээр хурдацтай ахиц дэвшил гаргаж байгаа ч том хэмжээний, нарийн төвөгтэй бодит төслүүдийг шийдвэрлэхэд урт зам туулах хэрэгтэй хэвээр байна.

Ирээдүйн төлөв

SWE-Bench Mobile-ийг гаргаснаар AI програмчлалын хэрэгслийн хөгжилд чухал хэмжүүр болж байна. Энэ нь бидэнд дараах зүйлийг сануулж байна:

AI-ийн тусламжтай програмчлал нь хүний хяналтыг шаарддаг
Нарийн төвөгтэй төслүүд нь илүү ухаалаг контекстийн ойлголтыг шаарддаг
Загварын чадавхийг сайжруулах орон зай их байна

Нөөцийн холбоос

Нөөц

Эрдэм шинжилгээний өгүүлэл: https://arxiv.org/abs/xxxxx
GitHub: https://github.com/xiaohongshu/swe-bench-mobile

Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?

Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?

SWE-Bench Mobile гэж юу вэ?

Тестийн үр дүн

Яагаад ийм хэцүү байна вэ?

Уламжлалт шалгуур үзүүлэлттэй харьцуулах нь

Салбарын ач холбогдол

Ирээдүйн төлөв

Нөөцийн холбоос

You Might Also Like

Claude Code Buddy засварын гарын авлага: Гялалзсан домогт амьтан хэрхэн авах вэ

Obsidian Defuddle-г танилцууллаа, Obsidian Web Clipper-ийг шинэ түвшинд гаргалаа

OpenAI гэнэт "Гурван нэг"-ийг зарлалаа: Браузер + Программчлал + ChatGPT нэгдэж, дотооддоо өнгөрсөн жил буруу замаар явсан гэдгээ хүлээн зөвшөөрчээ

2026, өөрийгөө "засаглах" гэж бүү шах! Энэ 8 жижиг зүйлийг сайн хий, эрүүл мэнд өөрөө ирнэ

Тэрээр жингээ хасахад хичээж байгаа ээжүүд, яагаад чадахгүй байна вэ?

AI Браузер 24 цагийн тогтвортой ажиллах гарын авлага