Агентын ур чадварын томоохон шинэчлэлт! Anthropic ур чадварын үйлдвэрийг цөмийн бөмбөгний зэрэглэлийн evals системд шинэчилж, хөгжүүлэгчид: хуучин ур чадварууд амьдралд эргэн ирлээ
Агентын ур чадварын томоохон шинэчлэлт! Anthropic ур чадварын үйлдвэрийг цөмийн бөмбөгний зэрэглэлийн evals системд шинэчилж, хөгжүүлэгчид: хуучин ур чадварууд амьдралд эргэн ирлээ
Ухаалаг AI-ийн салбарт, хэрвээ та Агентын ур чадварыг ашиглаж байсан бол, заавал skill-creator-ийг мэдэх болно, энэ нь Anthropic-ийн 2025 онд гаргасан ур чадварын кодгүй бүтээх хэрэгсэл юм.
Гэхдээ ур чадварыг бүтээсний дараа, энэ ур чадвар нь хэрхэн ашиглагдах, шинэ загвар ашиглагдах уу, ажиллах үнэн зөв үү, үр дүн нь ямар байх вэ гэдгийг мэдэхгүй хэвээр байна...
2023 оны 3-р сарын 3-нд, Anthropic-ийн албан ёсны блогт "Improving skill-creator: Test, measure, and refine Agent Skills" нэртэй томоохон шинэчлэл гарч ирэв. Энэ шинэчлэл нь Claude-ийн "ур чадварын үйлдвэр"-ийг жинхэнэ утгаар нь боловсронгуй болгож байна.
"Хэрэглэж болох" байдлаас "шинжилж, хэмжиж, давтан сайжруулах" хүртэл, өмнөх ур чадварын зохиогчдын хамгийн том асуудлыг бүрэн шийдэж, "Би хийсэн ур чадвар үнэхээр хэрэгтэй юу?" гэсэн асуултыг шийдэж байна.
01 - Агентын ур чадварыг эргэн санах: ерөнхий туслагчийн мэргэжлийн ухаалаг систем рүү шилжих гол алхам
2025 оны 10-р сард Anthropic албан ёсоор Агентын ур чадварыг танилцуулсан, энэ нь модульчлагдсан, дахин ашиглах боломжтой "ур чадварын багц" систем юм. Нэг хавтсанд SKILL.md заавар, скрипт, нөөц агуулагддаг бөгөөд Claude шаардлагатай үед автоматаар ачаалж, баримт бичгийн үйлдвэрлэл, өгөгдлийн шинжилгээ, брэндийн нийцэл зэрэг сценариудын гүйцэтгэлийг ихээхэн сайжруулдаг.
Ур чадварууд Claude.ai, Claude Code, API бүх платформд хамрагдсан бөгөөд GitHub репозиторийг нээлттэй (одоо 80,000 гаруй одтой). Гэхдээ анхны хувилбарын хамгийн том хязгаарлалт нь, техникийн бус хэрэглэгчид зөвхөн мэдрэмжээр давтан сайжруулах боломжтой байсан бөгөөд үр дүнг тоон хэмжээгээр баталгаажуулах боломжгүй байсан.
Ур чадваруудын хоёр төрөл бий:
1. Чадвар нэмэгдүүлэх төрөл
Загвар нь "хийж чадахгүй" эсвэл "буруу хийдэг" зүйлсийг, ур чадваруудын тусламжтайгаар тодорхой арга, загваруудыг оруулснаар тогтвортой гаргах.
2. Сонголт кодлох төрөл
Загвар бүрийн алхамыг хийх боломжтой боловч, багийн тодорхой процессын дагуу нарийн дараалалтай байх шаардлагатай.
Энэ шинэчлэлийн 5 гол онцлог:
- Evals (автоматжуулсан үнэлгээ): Хэрэглэгчид "шинжилгээний заавар + хүлээгдэж буй гаралтын төрлийг" тодорхойлж, skill-creator автоматжуулан баталгаажуулна.
- Benchmark горим: Стандартчилсан тестийг багцлан гүйцэтгэж, гаралтын хувь, хугацаа, Token зарцуулалт зэрэг хатуу үзүүлэлтүүдийг гаргана.
- Олон агентын зэрэгцээ гүйцэтгэл: Тусдаа цэвэр контекст, бохирдлоос зайлсхийж, тестийн хурд ихсэх.
- Comparator (бараг туршилтын харьцуулалт): A/B тестийн хоёр ур чадварын хувилбарыг.
- Description Tuning (тодорхойлолтын сайжруулалт): Автоматжуулан жишээ зааврыг шинжилж, тодорхойлолтыг засахыг санал болгоно.
02 - Суурилуулах шалтгаан байхгүй! Энэ шинэчлэл хуучин ур чадварыг амьдралд эргэн ирүүлж байна
Anthropic-ийн skill-creator-д хийсэн энэ шинэчлэл, AI агентын мэргэжилтнүүд болон хөгжүүлэгчдийн дунд хурдан хэлэлцүүлэг үүсгэв.
03 - AI ухаалаг системийн CI/CD мөч: урлагийн бүтээлээс инженерийн бүтээгдэхүүн рүү шилжсэн
Anthropic-ийн skill-creator-д хийсэн энэ шинэчлэл нь, программ хангамжийн инженерчлэлд хамгийн боловсронгуй "шинжилгээ-стандарт-давтан сайжруулах" замыг энгийн хэрэглэгчид болон бизнесийн багуудад авчирсан. Энэ нь Агентын ур чадварууд "бичээд хаях" нэг удаагийн prompt инженерчлэл биш, харин тасралтгүй засварлах, загварын хувилбаруудтай нийцэх, өгөгдөлд суурилсан сайжруулалт хийх "амьд хөрөнгө" болж байна.
Түр хугацаанд, хамгийн их ашиг хүртэгчид нь Claude Code / Cowork-д их хэмжээний өөрийн ур чадварыг хуримтлуулсан хөгжүүлэгчид болон бизнесийн хэрэглэгчид юм.
Мөн илүү өргөн өнцгөөс харахад, энэ шинэчлэл нь Anthropic-ийн Агентын экосистем дэх "хэрэгслийн сүлжээний хамгаалалт"-ыг улам бэхжүүлж байна.

