Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

3/9/2026
3 min read

Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

智猩猩AI整理 | 编辑:汐汐

Sa larangan ng AI agents, kung ginamit mo na ang Agent Skills, tiyak na alam mo ang skill-creator, isang zero-code na tool para sa pagbuo ng skills na inilabas ng Anthropic noong 2025.

Ngunit pagkatapos bumuo ng skill, wala pa ring paraan upang malaman kung ang skill na iyon ay kapaki-pakinabang, kung magagamit pa ang bagong modelo, kung ito ay tumatakbo nang tama, at kung ano ang epekto nito...

Noong Marso 3, tahimik na inilabas ng opisyal na blog ng Anthropic ang isang malaking update na pinamagatang Improving skill-creator: Test, measure, and refine Agent Skills. Ang pag-upgrade na ito ay tunay na nagdala sa "skill factory" ni Claude sa isang mas mature na estado.

Mula sa "mukhang magagamit" hanggang sa "maaaring subukan, sukatin, at i-iterate", ganap na nalutas ang pinakamalaking sakit ng ulo ng mga may-akda ng skill, na "kung ang skill na ginawa ko ay talagang kapaki-pakinabang?"

01 - Agent Skills回顾:从通用助手到专业智能体的关键一步

Noong Oktubre 2025, opisyal na inilunsad ng Anthropic ang Agent Skills, isang modular at reusable na "skill package" system. Isang folder ang naglalaman ng SKILL.md na mga tagubilin, script, at mga mapagkukunan, na awtomatikong naglo-load si Claude kapag kinakailangan, na lubos na nagpapabuti sa pagbuo ng dokumento, pagsusuri ng data, pagsunod sa brand, at iba pang mga senaryo.

Ang Skills ay sumasaklaw sa buong platform ng Claude.ai, Claude Code, at API, at nagbukas ng GitHub repository (sa kasalukuyan ay higit sa 80,000 na stars). Ngunit ang pinakamalaking limitasyon ng mga maagang bersyon ay ang mga non-technical na gumagamit ay maaari lamang umasa sa kanilang pakiramdam para sa iteration, na walang paraan upang sukatin ang epekto.

Skills有两种类型:

1. 能力提升型

Ang mga bagay na "hindi magagawa" o "hindi matatag" ng modelo ay maaaring maging matatag sa pamamagitan ng pag-inject ng mga tiyak na kasanayan at pattern gamit ang Skills.

2. 偏好编码型

Ang modelo ay kayang gawin ang bawat hakbang, ngunit kailangan itong mahigpit na ayusin ayon sa tiyak na proseso ng koponan.

此次升级的5大亮点:

  • Evals(自动化评估):Kailangan lamang ng mga gumagamit na ilarawan ang "test prompt + inaasahang output" at awtomatikong tatakbo ang skill-creator para sa beripikasyon.
  • Benchmark 模式:Batch na nagpapatakbo ng standardized tests, naglalabas ng pass rate, oras ng pagkuha, at iba pang hard metrics.
  • 多代理并行执行:Independiyenteng malinis na konteksto, naiiwasan ang polusyon, at ang bilis ng pagsusuri ay tumataas nang malaki.
  • Comparator(盲测对比):A/B testing ng dalawang bersyon ng skill.
  • Description Tuning(触发描述优化):Awtomatikong sinusuri ang sample prompts at nagmumungkahi ng mga pagbabago sa paglalarawan.

02 - 没有理由不安装!这次更新让旧技能起死回生

Ang pag-update ng Anthropic sa skill-creator ay mabilis na nagpasiklab ng talakayan sa mga practitioner at developer ng AI Agent.

03 - AI 智能体的CI/CD时刻:从艺术品变成了工程产品

Ang pag-upgrade ng Anthropic sa skill-creator ay sa katunayan ay nagdala ng pinaka-mature na "testing-benchmark-iteration" na cycle ng software engineering sa mga ordinaryong gumagamit at mga team ng negosyo. Nangangahulugan ito na ang Agent Skills ay hindi na isang "one-time prompt engineering" na itinatapon pagkatapos ng pagsusulat, kundi isang "live asset" na maaaring patuloy na mapanatili, compatible sa iba't ibang bersyon ng modelo, at maaaring ma-optimize sa pamamagitan ng data.

Sa maikling panahon, ang pinakamalaking makikinabang ay ang mga developer at mga gumagamit ng negosyo na nakapag-ipon ng maraming custom skills sa Claude Code / Cowork.

At sa mas malawak na pananaw, ang pag-update na ito ay higit pang nagpapatibay sa "toolchain moat" ng Anthropic sa ekosistema ng Agent.

Published in Technology

You Might Also Like