Uboreshaji Mkubwa wa Ujuzi wa Wakala! Anthropic Yaboresha Kiwanda cha Ujuzi na Kuweka Mfumo wa Evals wa Kiwango cha Nyuklia, Wataalamu: Ujuzi wa Kale Unarejea
Uboreshaji Mkubwa wa Ujuzi wa Wakala! Anthropic Yaboresha Kiwanda cha Ujuzi na Kuweka Mfumo wa Evals wa Kiwango cha Nyuklia, Wataalamu: Ujuzi wa Kale Unarejea
Mwandiko wa AI wa Zhi Xingsheng | Mhariri: Xi Xi
Katika uwanja wa wakala wa AI, ikiwa umewahi kutumia Ujuzi wa Wakala, basi bila shaka utajua kuhusu mjenzi wa ujuzi, zana hii ya kujenga ujuzi bila msimbo iliyotolewa na Anthropic mwaka wa 2025.
Lakini baada ya kujenga ujuzi, bado hujui kama ujuzi huu una manufaa, kama modeli mpya bado inaweza kutumika, kama inafanya kazi kwa usahihi, na matokeo yake ni vipi...
Mnamo tarehe 3 Machi, blogu rasmi ya Anthropic ilitoa sasisho kubwa kwa kimya, iitwayo Kuboresha mjenzi wa ujuzi: Jaribu, pima, na boresha Ujuzi wa Wakala. Sasisho hili limemfanya "kiwanda cha ujuzi" cha Claude kuwa na umri wa kukomaa.
Kutoka "inaonekana inaweza kutumika" hadi "inaweza kupimwa, inaweza kupimwa, inaweza kuboreshwa", kumetatiza kabisa maumivu makubwa ya waandishi wa ujuzi hapo awali, yaani "ujuzi niliofanya ni mzuri kiasi gani?"
01 - Muhtasari wa Ujuzi wa Wakala: Hatua Muhimu Kutoka kwa Msaidizi wa Kawaida Hadi Wakala Mtaalamu
Mnamo Oktoba 2025, Anthropic ilizindua rasmi Ujuzi wa Wakala, ambayo ni mfumo wa "pakiti za ujuzi" unaoweza kugawanywa na kutumika tena. Folda moja ina maagizo ya SKILL.md, skripti, rasilimali, Claude inazipakia kiotomatiki inapohitajika, ikiongeza sana utendaji wa uzalishaji wa hati, uchambuzi wa data, na ufuatiliaji wa alama za chapa.
Ujuzi umeshughulikia Claude.ai, Claude Code, API kwenye majukwaa yote, na kufungua ghala la GitHub (hivi sasa lina nyota zaidi ya 80,000). Lakini kikomo kikubwa cha toleo la awali ni kwamba watumiaji wasio na ujuzi wa kiufundi walikuwa wanaweza tu kuboresha kwa hisia, hawawezi kuthibitisha matokeo kwa kiwango.
Ujuzi una aina mbili:
1. Aina ya Kuongeza Uwezo
Mambo ambayo modeli kwa asili "hayakuweza" au "hayakuwa thabiti" yanaweza kuimarishwa kwa kuingiza mbinu maalum, mifano kupitia Ujuzi.
2. Aina ya Kuandika Mapendeleo
Modeli inaweza kufanya kila hatua, lakini inahitaji kuandikwa kwa mpangilio mkali kulingana na mchakato maalum wa timu.
Mambo 5 Makuu ya Sasisho Hili:
- Evals (Tathmini ya Kiotomatiki): Watumiaji wanahitaji tu kuelezea "maneno ya jaribio + muonekano wa matokeo yanayotarajiwa" mjenzi wa ujuzi unafanya uthibitisho kiotomatiki.
- Hali ya Benchmark: Kukimbia majaribio ya viwango kwa wingi, kutoa viwango vya kupita, muda wa kuchukua, matumizi ya Token na viashiria vingine vya ngumu.
- Utendaji wa Wakala Wengi kwa Wakati Mmoja: Muktadha safi wa kujitegemea, kuzuia uchafuzi, kasi ya majaribio inakua kwa kasi.
- Comparator (Kulinganisha kwa Kijinga): Jaribio la A/B la matoleo mawili ya ujuzi.
- Description Tuning (Kuboresha Maelezo ya Kichocheo): Kuchambua kiotomatiki sampuli za maelezo, kupendekeza marekebisho ya maelezo.
02 - Hakuna Sababu ya Kutokuweka! Sasisho Hili Linarejesha Ujuzi wa Kale
Sasisho hili la Anthropic kwa mjenzi wa ujuzi, haraka limeanzisha mjadala miongoni mwa wataalamu wa Wakala wa AI na waendelezaji.
03 - Wakati wa CI/CD wa Wakala wa AI: Kutoka kwa Kazi ya Sanaa Hadi Bidhaa ya Uhandisi
Sasisho hili la Anthropic kwa mjenzi wa ujuzi, kimsingi ni kuleta mzunguko wa "jaribio-viwango-kuboresha" ambao umekomaa zaidi katika uhandisi wa programu, kwa urahisi kwa watumiaji wa kawaida na timu za biashara. Hii inamaanisha Ujuzi wa Wakala sio tena "kuchora na kutupa" kazi ya mara moja, bali ni "mali hai" inayoweza kudumishwa kwa muda mrefu, inayoendana na matoleo tofauti ya modeli, na inayoweza kuboreshwa kwa data.
Kwa mtazamo wa muda mfupi, wanufaika wakuu ni waendelezaji na watumiaji wa biashara ambao tayari wamekusanya ujuzi wa kawaida katika Claude Code / Cowork.
Na kwa mtazamo mpana zaidi, sasisho hili limeimarisha zaidi "mkoa wa zana" wa Anthropic katika ikolojia ya Wakala.

