Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?

2/15/2026
3 min read

Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?

SWE-Bench Mobile

Жижиг Улаан Ном баг нь AI Agent-ийн бодит гар утасны аппликейшний кодын сан дээрх гүйцэтгэлийг үнэлэхэд зориулагдсан SWE-Bench Mobile хэмээх шинэ шалгуур үзүүлэлтийг гаргажээ. Үр дүн нь гүн гүнзгий санаа төрүүлж байна: хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн шилдэг AI Agent-уудын хувьд ч гэсэн хамгийн өндөр амжилт нь ердөө 12% байна.

Тестийн орчин

SWE-Bench Mobile гэж юу вэ?

Шалгуур үзүүлэлтийн танилцуулга

SWE-Bench Mobile нь гар утасны аппликейшн хөгжүүлэлтэд зориулсан кодын засварын шалгуур үзүүлэлт юм. Энэ нь бодит гар утасны аппликейшний алдаа засварын ажлуудыг агуулдаг бөгөөд AI Agent-аас дараах зүйлийг шаарддаг:

  • Гар утасны аппликейшний кодын нарийн төвөгтэй бүтцийг ойлгох
  • Асуудлын үндсийг тодорхойлох
  • Зөв засварын кодыг үүсгэх
  • Засвар нь шинэ асуудал үүсгэхгүй байхыг баталгаажуулах

Тестийн үр дүн

Тестийн үр дүн

Тестийн явцад хэд хэдэн гол AI Agent-ууд дараах байдлаар ажилласан:

  • Хамгийн сайн гүйцэтгэл: 12% амжилт
  • Дундаж түвшин: 5-8% амжилт
  • Зарим загвар: 0% -д ойрхон амжилт

Энэ үр дүн нь уламжлалт SWE-Bench дээрх гүйцэтгэлээс хамаагүй доогуур байна.

Яагаад ийм хэцүү байна вэ?

Сорилтын шинжилгээ

Гар утасны аппликейшний кодын сангийн онцлог нь нэмэлт сорилтуудыг авчирдаг:

  • Олон төхөөрөмжид тохируулах: iOS болон Android платформыг хоёуланг нь харгалзан үзэх шаардлагатай
  • Нарийн төвөгтэй хамаарал: Гар утасны аппликейшний модулиудын хоорондын холбоо өндөр
  • Гүйцэтгэлийн хязгаарлалт: Гар утасны төхөөрөмжийн нөөц хязгаарлагдмал, кодын оновчлолын шаардлага өндөр
  • UI логик нарийн төвөгтэй: Интерфэйсийн харилцан үйлчлэлийн кодыг статик байдлаар шинжлэхэд хэцүү

Уламжлалт шалгуур үзүүлэлттэй харьцуулах нь

Харьцуулсан шинжилгээ

Уламжлалт SWE-Bench-тэй харьцуулахад Mobile хувилбарын хүндрэл мэдэгдэхүйц нэмэгдсэн:

  • Кодын сангийн хэмжээ том
  • Бизнесийн логик илүү төвөгтэй
  • Тестийн жишээг давах нь илүү хэцүү
  • Контекстийн цонхны шаардлага өндөр

Салбарын ач холбогдол

Салбарын ач холбогдол

Энэхүү шалгуур үзүүлэлт нь AI Agent-ийн бодит үйлдвэрлэлийн орчинд хэр хязгаарлагдмал болохыг харуулж байна. Хэдийгээр AI код үүсгэх тал дээр хурдацтай ахиц дэвшил гаргаж байгаа ч том хэмжээний, нарийн төвөгтэй бодит төслүүдийг шийдвэрлэхэд урт зам туулах хэрэгтэй хэвээр байна.

Ирээдүйн төлөв

Ирээдүйн төлөв

SWE-Bench Mobile-ийг гаргаснаар AI програмчлалын хэрэгслийн хөгжилд чухал хэмжүүр болж байна. Энэ нь бидэнд дараах зүйлийг сануулж байна:

  • AI-ийн тусламжтай програмчлал нь хүний хяналтыг шаарддаг
  • Нарийн төвөгтэй төслүүд нь илүү ухаалаг контекстийн ойлголтыг шаарддаг
  • Загварын чадавхийг сайжруулах орон зай их байна

Нөөцийн холбоос

Нөөц

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy засварын гарын авлага: Гялалзсан домогт амьтан хэрхэн авах вэ

Claude Code Buddy засварын гарын авлага: Гялалзсан домогт амьтан хэрхэн авах вэ 2026 оны 4-р сарын 1-нд, Anthropic Claud...

Obsidian Defuddle-г танилцууллаа, Obsidian Web Clipper-ийг шинэ түвшинд гаргалааTechnology

Obsidian Defuddle-г танилцууллаа, Obsidian Web Clipper-ийг шинэ түвшинд гаргалаа

Obsidian Defuddle-г танилцууллаа, Obsidian Web Clipper-ийг шинэ түвшинд гаргалаа Би Obsidian-ийн үндсэн санааг үргэлж и...

OpenAI гэнэт "Гурван нэг"-ийг зарлалаа: Браузер + Программчлал + ChatGPT нэгдэж, дотооддоо өнгөрсөн жил буруу замаар явсан гэдгээ хүлээн зөвшөөрчээTechnology

OpenAI гэнэт "Гурван нэг"-ийг зарлалаа: Браузер + Программчлал + ChatGPT нэгдэж, дотооддоо өнгөрсөн жил буруу замаар явсан гэдгээ хүлээн зөвшөөрчээ

OpenAI гэнэт зарлалаа "Гурван нэг"-ийг: Браузер + Программчлал + ChatGPT нэгдэж, дотооддоо өнгөрсөн жил буруу замаар явс...

2026, өөрийгөө "засаглах" гэж бүү шах! Энэ 8 жижиг зүйлийг сайн хий, эрүүл мэнд өөрөө ирнэHealth

2026, өөрийгөө "засаглах" гэж бүү шах! Энэ 8 жижиг зүйлийг сайн хий, эрүүл мэнд өөрөө ирнэ

2026, өөрийгөө "засаглах" гэж бүү шах! Энэ 8 жижиг зүйлийг сайн хий, эрүүл мэнд өөрөө ирнэ Шинэ жил эхэлж байна, өнгөрс...

Тэрээр жингээ хасахад хичээж байгаа ээжүүд, яагаад чадахгүй байна вэ?Health

Тэрээр жингээ хасахад хичээж байгаа ээжүүд, яагаад чадахгүй байна вэ?

Тэрээр жингээ хасахад хичээж байгаа ээжүүд, яагаад чадахгүй байна вэ? Гуравдугаар сар дунджаар өнгөрч, таны жингийн хас...

📝
Technology

AI Браузер 24 цагийн тогтвортой ажиллах гарын авлага

AI Браузер 24 цагийн тогтвортой ажиллах гарын авлага Энэхүү заавар нь тогтвортой, удаан хугацаанд ажиллах AI браузерын о...