Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?

2/15/2026
3 min read

Жижиг Улаан Ном SWE-Bench Mobile-ийг танилцууллаа: AI Agent-ууд хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн өндөр амжилт нь ердөө 12% уу?

SWE-Bench Mobile

Жижиг Улаан Ном баг нь AI Agent-ийн бодит гар утасны аппликейшний кодын сан дээрх гүйцэтгэлийг үнэлэхэд зориулагдсан SWE-Bench Mobile хэмээх шинэ шалгуур үзүүлэлтийг гаргажээ. Үр дүн нь гүн гүнзгий санаа төрүүлж байна: хэдэн зуун сая хэрэглэгчтэй App-ийн кодын сантай тулгарахад хамгийн шилдэг AI Agent-уудын хувьд ч гэсэн хамгийн өндөр амжилт нь ердөө 12% байна.

Тестийн орчин

SWE-Bench Mobile гэж юу вэ?

Шалгуур үзүүлэлтийн танилцуулга

SWE-Bench Mobile нь гар утасны аппликейшн хөгжүүлэлтэд зориулсан кодын засварын шалгуур үзүүлэлт юм. Энэ нь бодит гар утасны аппликейшний алдаа засварын ажлуудыг агуулдаг бөгөөд AI Agent-аас дараах зүйлийг шаарддаг:

  • Гар утасны аппликейшний кодын нарийн төвөгтэй бүтцийг ойлгох
  • Асуудлын үндсийг тодорхойлох
  • Зөв засварын кодыг үүсгэх
  • Засвар нь шинэ асуудал үүсгэхгүй байхыг баталгаажуулах

Тестийн үр дүн

Тестийн үр дүн

Тестийн явцад хэд хэдэн гол AI Agent-ууд дараах байдлаар ажилласан:

  • Хамгийн сайн гүйцэтгэл: 12% амжилт
  • Дундаж түвшин: 5-8% амжилт
  • Зарим загвар: 0% -д ойрхон амжилт

Энэ үр дүн нь уламжлалт SWE-Bench дээрх гүйцэтгэлээс хамаагүй доогуур байна.

Яагаад ийм хэцүү байна вэ?

Сорилтын шинжилгээ

Гар утасны аппликейшний кодын сангийн онцлог нь нэмэлт сорилтуудыг авчирдаг:

  • Олон төхөөрөмжид тохируулах: iOS болон Android платформыг хоёуланг нь харгалзан үзэх шаардлагатай
  • Нарийн төвөгтэй хамаарал: Гар утасны аппликейшний модулиудын хоорондын холбоо өндөр
  • Гүйцэтгэлийн хязгаарлалт: Гар утасны төхөөрөмжийн нөөц хязгаарлагдмал, кодын оновчлолын шаардлага өндөр
  • UI логик нарийн төвөгтэй: Интерфэйсийн харилцан үйлчлэлийн кодыг статик байдлаар шинжлэхэд хэцүү

Уламжлалт шалгуур үзүүлэлттэй харьцуулах нь

Харьцуулсан шинжилгээ

Уламжлалт SWE-Bench-тэй харьцуулахад Mobile хувилбарын хүндрэл мэдэгдэхүйц нэмэгдсэн:

  • Кодын сангийн хэмжээ том
  • Бизнесийн логик илүү төвөгтэй
  • Тестийн жишээг давах нь илүү хэцүү
  • Контекстийн цонхны шаардлага өндөр

Салбарын ач холбогдол

Салбарын ач холбогдол

Энэхүү шалгуур үзүүлэлт нь AI Agent-ийн бодит үйлдвэрлэлийн орчинд хэр хязгаарлагдмал болохыг харуулж байна. Хэдийгээр AI код үүсгэх тал дээр хурдацтай ахиц дэвшил гаргаж байгаа ч том хэмжээний, нарийн төвөгтэй бодит төслүүдийг шийдвэрлэхэд урт зам туулах хэрэгтэй хэвээр байна.

Ирээдүйн төлөв

Ирээдүйн төлөв

SWE-Bench Mobile-ийг гаргаснаар AI програмчлалын хэрэгслийн хөгжилд чухал хэмжүүр болж байна. Энэ нь бидэнд дараах зүйлийг сануулж байна:

  • AI-ийн тусламжтай програмчлал нь хүний хяналтыг шаарддаг
  • Нарийн төвөгтэй төслүүд нь илүү ухаалаг контекстийн ойлголтыг шаарддаг
  • Загварын чадавхийг сайжруулах орон зай их байна

Нөөцийн холбоос

Нөөц

Published in Technology

You Might Also Like

2026 оны шилдэг 10 AI хэрэгслийг санал болгож байна: Хүний оюун ухааны жинхэнэ потенциалыг чөлөөлөхTechnology

2026 оны шилдэг 10 AI хэрэгслийг санал болгож байна: Хүний оюун ухааны жинхэнэ потенциалыг чөлөөлөх

2026 оны шилдэг 10 AI хэрэгслийг санал болгож байна: Хүний оюун ухааны жинхэнэ потенциалыг чөлөөлөх Технологи хурдтай хө...

2026 оны Top 10 AWS хэрэгсэл ба нөөцийн саналTechnology

2026 оны Top 10 AWS хэрэгсэл ба нөөцийн санал

2026 оны Top 10 AWS хэрэгсэл ба нөөцийн санал Хурдан хөгжиж буй үүлний тооцооллын салбарт Amazon Web Services (AWS) нь т...

2026 оны Топ 10 эхлэгч компаниудын амжилтын нууц: өрсөлдөөнд ялалт байгуулахад туслахTechnology

2026 оны Топ 10 эхлэгч компаниудын амжилтын нууц: өрсөлдөөнд ялалт байгуулахад туслах

2026 оны Топ 10 эхлэгч компаниудын амжилтын нууц: өрсөлдөөнд ялалт байгуулахад туслах Энэ хурдан өөрчлөгдөж буй бизнесий...

2026 оны шилдэг 10 AI хэрэгсэл: Ажлын үр ашгийг дээшлүүлэх хамгийн сайн сонголтTechnology

2026 оны шилдэг 10 AI хэрэгсэл: Ажлын үр ашгийг дээшлүүлэх хамгийн сайн сонголт

2026 оны шилдэг 10 AI хэрэгсэл: Ажлын үр ашгийг дээшлүүлэх хамгийн сайн сонголт Өнөөдөр хиймэл оюун ухаан хурдтай хөгжиж...

iTerm2-оос илүү хэрэглэхэд хялбар Claude Code терминал гарч ирлээ!Technology

iTerm2-оос илүү хэрэглэхэд хялбар Claude Code терминал гарч ирлээ!

# iTerm2-оос илүү хэрэглэхэд хялбар Claude Code терминал гарч ирлээ! Сайн уу, би Guide. Өнөөдөр та бүхэнд сүүлийн хоёр ...

2026 оны шилдэг 10 AI програмчлалын хэрэгслийг санал болгож байна: Хөгжүүлэлтийн үр ашгийг нэмэгдүүлэх шилдэг туслагчTechnology

2026 оны шилдэг 10 AI програмчлалын хэрэгслийг санал болгож байна: Хөгжүүлэлтийн үр ашгийг нэмэгдүүлэх шилдэг туслагч

# 2026 оны шилдэг 10 AI програмчлалын хэрэгслийг санал болгож байна: Хөгжүүлэлтийн үр ашгийг нэмэгдүүлэх шилдэг туслагч ...