Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
智猩猩AI整理 | 编辑:汐汐
在AI智能体领域中,如果使用过Agent Skills,那么肯定会了解skill-creator,这个由Anthropic于2025年发布的一个skills零代码构建工具。
但是构建好skill后,仍然无从知晓这个skill是否有用、新模型还能用吗、运行准确吗、效果怎么样...
就在3月3日,Anthropic官方博客悄然发布了一篇重磅更新,叫做Improving skill-creator: Test, measure, and refine Agent Skills。这一升级让 Claude 的"技能工厂"真正走向成熟。
从"看起来能用"到"可测试、可衡量、可迭代",彻底解决了此前技能作者最大的痛点,也就是"我做的技能到底好不好用?"
01 - Agent Skills回顾:从通用助手到专业智能体的关键一步
2025年10月 Anthropic 正式推出 Agent Skills,这是一种模块化、可复用的"技能包"系统。一个文件夹里包含 SKILL.md 指令、脚本、资源,Claude在需要时自动加载,大幅提升文档生成、数据分析、品牌合规等场景表现。
Skills 已覆盖Claude.ai、Claude Code、API全平台,并开放GitHub仓库(目前星标超 8 万)。但早期版本的最大局限是,非技术用户只能凭感觉迭代,无法量化验证效果。
Skills有两种类型:
1. 能力提升型
模型原本"做不到"或"做不稳定"的事,通过 Skills 注入特定技巧、模式来稳定输出。
2. 偏好编码型
模型每一步都能做,但需要按团队特定流程严格排序。
此次升级的5大亮点:
- Evals(自动化评估):用户只需描述"测试提示词 + 期望输出样子"skill-creator 自动运行验证。
- Benchmark 模式:批量跑标准化测试,输出通过率、耗时、Token 消耗等硬指标。
- 多代理并行执行:独立干净上下文,避免污染,测试速度暴增。
- Comparator(盲测对比):A/B 测试两个技能版本。
- Description Tuning(触发描述优化):自动分析样本提示,建议修改描述。
02 - 没有理由不安装!这次更新让旧技能起死回生
Anthropic对skill-creator的这次更新,迅速引发AI Agent从业者和开发者热议。
03 - AI 智能体的CI/CD时刻:从艺术品变成了工程产品
Anthropic 此次对 skill-creator 的升级,本质上是把软件工程中最成熟的那一套"测试-基准-迭代"闭环,低门槛地带给了普通用户和企业团队。这意味着 Agent Skills 不再是"写完就扔"的一次性 prompt 工程,而是可以持续维护、跨模型版本兼容、可数据化优化的"活资产"。
短期来看,最大受益者是已经在 Claude Code / Cowork 里积累了大量自定义技能的开发者与企业用户。
而放眼更宏观的视角,这次更新进一步夯实了 Anthropic 在 Agent 生态中的"工具链护城河"。

