Agent Skills重大革新！Anthropic升级技能工厂塞进核弹级evals系统，开发者：旧技能起死回生

智猩猩AI整理 | 编辑：汐汐

En el camp dels agents d'IA, si has utilitzat Agent Skills, segurament coneixes el skill-creator, una eina de construcció de skills sense codi publicada per Anthropic el 2025.

Però després de construir un skill, encara no se sap si aquest skill és útil, si el nou model encara funciona, si s'executa amb precisió, com és l'efecte...

El 3 de març, el blog oficial d'Anthropic va publicar discretament una actualització important anomenada Improving skill-creator: Test, measure, and refine Agent Skills. Aquesta actualització va fer que la "fàbrica de skills" de Claude realment madurés.

Del "sembla que funciona" al "es pot provar, mesurar i iterar", es va resoldre completament el major punt de dolor dels autors de skills, és a dir, "com sé si el skill que he creat és útil?"

01 - Agent Skills revisió: un pas clau de l'assistent general a l'agent especialitzat

El 2025, Anthropic va llançar oficialment Agent Skills, un sistema de "paquets de skills" modulars i reutilitzables. Una carpeta conté instruccions SKILL.md, scripts, recursos, que Claude carrega automàticament quan és necessari, millorant significativament el rendiment en generació de documents, anàlisi de dades, compliment de marca, entre d'altres.

Els Skills ja cobreixen tota la plataforma Claude.ai, Claude Code, API, i han obert un repositori a GitHub (actualment amb més de 80.000 estrelles). Però la major limitació de les versions primerenques era que els usuaris no tècnics només podien iterar basant-se en la intuïció, sense poder quantificar els resultats.

Hi ha dos tipus de Skills:

1. Millora de capacitats

Coses que el model original "no podia fer" o "feia de manera inestable" es poden estabilitzar injectant tècniques o patrons específics a través dels Skills.

2. Codificació de preferències

El model pot fer cada pas, però necessita seguir un ordre estricte segons el procés específic de l'equip.

5 grans punts destacats d'aquesta actualització:

Evals (avaluació automatitzada): l'usuari només ha de descriure "paraules clau de prova + aspecte esperat de la sortida" i el skill-creator executarà la validació automàticament.
Mode Benchmark: executa proves estandarditzades en massa, amb resultats com la taxa d'aprovació, temps consumit, consum de tokens, etc.
Execució paral·lela de múltiples agents: context net i independent, evitant contaminació, augmentant dràsticament la velocitat de prova.
Comparator (comparació cega): prova A/B de dues versions de skills.
Description Tuning (optimització de descripcions): analitza automàticament mostres de suggeriments i recomana modificacions de descripcions.

02 - No hi ha raó per no instal·lar-ho! Aquesta actualització fa ressuscitar els vells skills

L'actualització d'Anthropic al skill-creator ha provocat ràpidament un debat entre professionals i desenvolupadors d'AI Agent.

03 - El moment CI/CD dels agents d'IA: d'obra d'art a producte d'enginyeria

L'actualització d'Anthropic al skill-creator és essencialment portar el cicle tancat més madur de "prova - referència - iteració" de l'enginyeria de programari a usuaris normals i equips d'empresa amb un baix llindar d'entrada. Això significa que Agent Skills ja no és un projecte de prompt d'un sol ús que es "llença després d'escriure", sinó un "actiu viu" que es pot mantenir contínuament, compatible entre versions de models i optimitzat a través de dades.

A curt termini, els màxims beneficiaris són els desenvolupadors i usuaris d'empresa que ja han acumulat una gran quantitat de skills personalitzats a Claude Code / Cowork.

Mirant des d'una perspectiva més macro, aquesta actualització consolida encara més la "marginal de cadena d'eines" d'Anthropic en l'ecosistema d'Agents.

Agent Skills重大革新！Anthropic升级技能工厂塞进核弹级evals系统，开发者：旧技能起死回生

Agent Skills重大革新！Anthropic升级技能工厂塞进核弹级evals系统，开发者：旧技能起死回生

01 - Agent Skills revisió: un pas clau de l'assistent general a l'agent especialitzat

Hi ha dos tipus de Skills:

1. Millora de capacitats

2. Codificació de preferències

5 grans punts destacats d'aquesta actualització:

02 - No hi ha raó per no instal·lar-ho! Aquesta actualització fa ressuscitar els vells skills

03 - El moment CI/CD dels agents d'IA: d'obra d'art a producte d'enginyeria

You Might Also Like

Guia de modificació de Claude Code Buddy: com obtenir mascotes de llegenda brillants

Obsidian llança Defuddle, portant Obsidian Web Clipper a un nou nivell

OpenAI de sobte anuncia "tres en un": fusió de navegador + programació + ChatGPT, reconeixent que han comès errors durant l'últim any

2026, no et forcis a ser 'autònom'! Fes aquestes 8 petites coses, la salut vindrà de manera natural

Aquells pares que es dediquen a perdre pes i no ho aconsegueixen, segurament fallen aquí

Guia per a l'execució estable de l'AI Browser durant 24 hores