Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
智猩猩AI整理 | 编辑:汐汐
En el camp dels agents d'IA, si has utilitzat Agent Skills, segurament coneixes el skill-creator, una eina de construcció de skills sense codi publicada per Anthropic el 2025.
Però després de construir un skill, encara no se sap si aquest skill és útil, si el nou model encara funciona, si s'executa amb precisió, com és l'efecte...
El 3 de març, el blog oficial d'Anthropic va publicar discretament una actualització important anomenada Improving skill-creator: Test, measure, and refine Agent Skills. Aquesta actualització va fer que la "fàbrica de skills" de Claude realment madurés.
Del "sembla que funciona" al "es pot provar, mesurar i iterar", es va resoldre completament el major punt de dolor dels autors de skills, és a dir, "com sé si el skill que he creat és útil?"
01 - Agent Skills revisió: un pas clau de l'assistent general a l'agent especialitzat
El 2025, Anthropic va llançar oficialment Agent Skills, un sistema de "paquets de skills" modulars i reutilitzables. Una carpeta conté instruccions SKILL.md, scripts, recursos, que Claude carrega automàticament quan és necessari, millorant significativament el rendiment en generació de documents, anàlisi de dades, compliment de marca, entre d'altres.
Els Skills ja cobreixen tota la plataforma Claude.ai, Claude Code, API, i han obert un repositori a GitHub (actualment amb més de 80.000 estrelles). Però la major limitació de les versions primerenques era que els usuaris no tècnics només podien iterar basant-se en la intuïció, sense poder quantificar els resultats.
Hi ha dos tipus de Skills:
1. Millora de capacitats
Coses que el model original "no podia fer" o "feia de manera inestable" es poden estabilitzar injectant tècniques o patrons específics a través dels Skills.
2. Codificació de preferències
El model pot fer cada pas, però necessita seguir un ordre estricte segons el procés específic de l'equip.
5 grans punts destacats d'aquesta actualització:
- Evals (avaluació automatitzada): l'usuari només ha de descriure "paraules clau de prova + aspecte esperat de la sortida" i el skill-creator executarà la validació automàticament.
- Mode Benchmark: executa proves estandarditzades en massa, amb resultats com la taxa d'aprovació, temps consumit, consum de tokens, etc.
- Execució paral·lela de múltiples agents: context net i independent, evitant contaminació, augmentant dràsticament la velocitat de prova.
- Comparator (comparació cega): prova A/B de dues versions de skills.
- Description Tuning (optimització de descripcions): analitza automàticament mostres de suggeriments i recomana modificacions de descripcions.
02 - No hi ha raó per no instal·lar-ho! Aquesta actualització fa ressuscitar els vells skills
L'actualització d'Anthropic al skill-creator ha provocat ràpidament un debat entre professionals i desenvolupadors d'AI Agent.
03 - El moment CI/CD dels agents d'IA: d'obra d'art a producte d'enginyeria
L'actualització d'Anthropic al skill-creator és essencialment portar el cicle tancat més madur de "prova - referència - iteració" de l'enginyeria de programari a usuaris normals i equips d'empresa amb un baix llindar d'entrada. Això significa que Agent Skills ja no és un projecte de prompt d'un sol ús que es "llença després d'escriure", sinó un "actiu viu" que es pot mantenir contínuament, compatible entre versions de models i optimitzat a través de dades.
A curt termini, els màxims beneficiaris són els desenvolupadors i usuaris d'empresa que ja han acumulat una gran quantitat de skills personalitzats a Claude Code / Cowork.
Mirant des d'una perspectiva més macro, aquesta actualització consolida encara més la "marginal de cadena d'eines" d'Anthropic en l'ecosistema d'Agents.

