Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
智猩猩AI整理 | 编辑:汐汐
В областта на AI агентите, ако сте използвали Agent Skills, определено ще знаете за skill-creator, инструмент за изграждане на умения без код, пуснат от Anthropic през 2025 г.
Но след като изградите умение, все още не знаете дали това умение е полезно, дали новият модел все още работи, дали работи точно, какъв е ефектът...
На 3 март Anthropic официално публикува важна актуализация в блога си, наречена Improving skill-creator: Test, measure, and refine Agent Skills. Тази актуализация направи "фабриката за умения" на Claude наистина зряла.
От "изглежда, че работи" до "може да се тества, да се измерва, да се итерара", напълно реши най-голямата болка на авторите на умения, а именно "наистина ли работи умението, което направих?"
01 - Agent Skills回顾:从通用助手到专业智能体的关键一步
През октомври 2025 г. Anthropic официално пусна Agent Skills, модулна и повторно използваема система от "умения". Папка, съдържаща SKILL.md инструкции, скриптове и ресурси, които Claude автоматично зарежда при необходимост, значително подобрява представянето в сценарии като генериране на документи, анализ на данни и спазване на бранд.
Уменията вече обхващат Claude.ai, Claude Code, API на цялата платформа и отвориха GitHub хранилище (в момента с над 80 000 звезди). Но основното ограничение на ранните версии беше, че нетехническите потребители можеха да итерарат само на базата на усещането си, без да могат да количествено валидират ефекта.
Skills有两种类型:
1. 能力提升型
Неща, които моделът първоначално "не може" или "не е стабилен", могат да бъдат стабилизирани чрез инжектиране на специфични техники и модели.
2. 偏好编码型
Моделът може да прави всяка стъпка, но трябва да бъде строго подреден според специфичния процес на екипа.
此次升级的5大亮点:
- Evals(自动化评估):Потребителят просто трябва да опише "тестовия подтик + очаквания изход", skill-creator автоматично извършва проверка.
- Benchmark 模式:Извършва стандартни тестове на партиди, извежда процента на преминаване, времето за изпълнение, консумацията на токени и други твърди показатели.
- 多代理并行执行:Независим чист контекст, избягване на замърсяване, скоростта на тестовете нараства.
- Comparator(盲测对比):A/B тестиране на две версии на умения.
- Description Tuning(触发描述优化):Автоматичен анализ на примерни подтици, предлагащи изменения в описанието.
02 - 没有理由不安装!这次更新让旧技能起死回生
Актуализацията на Anthropic за skill-creator бързо предизвика дискусии сред професионалистите и разработчиците на AI агенти.
03 - AI 智能体的CI/CD时刻:从艺术品变成了工程产品
Актуализацията на Anthropic за skill-creator по същество е пренос на най-зрелия цикъл "тест-референтен-итерация" от софтуерното инженерство към обикновените потребители и екипи. Това означава, че Agent Skills вече не са "еднократни" промпт проекти, а "живи активи", които могат да се поддържат, да бъдат съвместими с различни версии на модели и да се оптимизират на базата на данни.
В краткосрочен план, най-големите печеливши са разработчиците и бизнес потребителите, които вече са натрупали много персонализирани умения в Claude Code / Cowork.
А в по-широк контекст, тази актуализация допълнително укрепи "инструменталната защитна стена" на Anthropic в екосистемата на агентите.

