Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

3/9/2026
1 min read

Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

智猩猩AI整理 | 编辑:汐汐

在AI智能体领域中,如果使用过Agent Skills,那么肯定会了解skill-creator,这个由Anthropic于2025年发布的一个skills零代码构建工具。

但是构建好skill后,仍然无从知晓这个skill是否有用、新模型还能用吗、运行准确吗、效果怎么样...

就在3月3日,Anthropic官方博客悄然发布了一篇重磅更新,叫做Improving skill-creator: Test, measure, and refine Agent Skills。这一升级让 Claude 的"技能工厂"真正走向成熟。

从"看起来能用"到"可测试、可衡量、可迭代",彻底解决了此前技能作者最大的痛点,也就是"我做的技能到底好不好用?"

01 - Agent Skills回顾:从通用助手到专业智能体的关键一步

2025年10月 Anthropic 正式推出 Agent Skills,这是一种模块化、可复用的"技能包"系统。一个文件夹里包含 SKILL.md 指令、脚本、资源,Claude在需要时自动加载,大幅提升文档生成、数据分析、品牌合规等场景表现。

Skills 已覆盖Claude.ai、Claude Code、API全平台,并开放GitHub仓库(目前星标超 8 万)。但早期版本的最大局限是,非技术用户只能凭感觉迭代,无法量化验证效果。

Skills有两种类型:

1. 能力提升型

模型原本"做不到"或"做不稳定"的事,通过 Skills 注入特定技巧、模式来稳定输出。

2. 偏好编码型

模型每一步都能做,但需要按团队特定流程严格排序。

此次升级的5大亮点:

  • Evals(自动化评估):用户只需描述"测试提示词 + 期望输出样子"skill-creator 自动运行验证。
  • Benchmark 模式:批量跑标准化测试,输出通过率、耗时、Token 消耗等硬指标。
  • 多代理并行执行:独立干净上下文,避免污染,测试速度暴增。
  • Comparator(盲测对比):A/B 测试两个技能版本。
  • Description Tuning(触发描述优化):自动分析样本提示,建议修改描述。

02 - 没有理由不安装!这次更新让旧技能起死回生

Anthropic对skill-creator的这次更新,迅速引发AI Agent从业者和开发者热议。

03 - AI 智能体的CI/CD时刻:从艺术品变成了工程产品

Anthropic 此次对 skill-creator 的升级,本质上是把软件工程中最成熟的那一套"测试-基准-迭代"闭环,低门槛地带给了普通用户和企业团队。这意味着 Agent Skills 不再是"写完就扔"的一次性 prompt 工程,而是可以持续维护、跨模型版本兼容、可数据化优化的"活资产"。

短期来看,最大受益者是已经在 Claude Code / Cowork 里积累了大量自定义技能的开发者与企业用户。

而放眼更宏观的视角,这次更新进一步夯实了 Anthropic 在 Agent 生态中的"工具链护城河"。

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 修改指南:如何获得闪光传说级宠物

Claude Code Buddy 修改指南:如何获得闪光传说级宠物 2026年4月1日,Anthropic 在 Claude Code 2.1.89 版本中悄然上线了一个彩蛋功能——/buddy 宠物系统。在终端输入 /buddy 后,一...

Obsidian ayaa soo saartay Defuddle, taasoo kor u qaaday Obsidian Web Clipper heer cusubTechnology

Obsidian ayaa soo saartay Defuddle, taasoo kor u qaaday Obsidian Web Clipper heer cusub

Obsidian ayaa soo saartay Defuddle, taasoo kor u qaaday Obsidian Web Clipper heer cusub Waxaan mar walba jeclaa fikradd...

OpenAI ayaa si lama filaan ah u shaacisay "saddex-in-mid ah": Isku-dhafka biraawsarka + barnaamijka + ChatGPT, gudaha ayaa qiratay in sanadkii la soo dhaafay ay qalad sameeyeenTechnology

OpenAI ayaa si lama filaan ah u shaacisay "saddex-in-mid ah": Isku-dhafka biraawsarka + barnaamijka + ChatGPT, gudaha ayaa qiratay in sanadkii la soo dhaafay ay qalad sameeyeen

OpenAI ayaa si lama filaan ah u shaacisay "saddex-in-mid ah": Isku-dhafka biraawsarka + barnaamijka + ChatGPT, gudaha ay...

2026, ha isku cadaadin 'is-dhaqan'! Samee 8 arrimood oo fudud, caafimaadku si dabiici ah ayuu u imaanayaaHealth

2026, ha isku cadaadin 'is-dhaqan'! Samee 8 arrimood oo fudud, caafimaadku si dabiici ah ayuu u imaanayaa

2026, ha isku cadaadin 'is-dhaqan'! Samee 8 arrimood oo fudud, caafimaadku si dabiici ah ayuu u imaanayaa Sannad cusub ...

Hooyooyinka dadaalaya inay miisaankooda dhimaan laakiin aan miisaankooda dhimin, dhab ahaantii waxay ku guuldareysteen halkanHealth

Hooyooyinka dadaalaya inay miisaankooda dhimaan laakiin aan miisaankooda dhimin, dhab ahaantii waxay ku guuldareysteen halkan

Hooyooyinka dadaalaya inay miisaankooda dhimaan laakiin aan miisaankooda dhimin, dhab ahaantii waxay ku guuldareysteen h...

📝
Technology

AI Browser 24小时稳定运行指南

AI Browser 24小时稳定运行指南 Tani waa cashar ku saabsan sida loo dhiso deegaan AI browser oo deggan oo muddo dheer shaqeeya. Ku...