¡Innovación significativa en las habilidades de los agentes! Anthropic actualiza la fábrica de habilidades con un sistema de evals de nivel nuclear, desarrolladores: habilidades antiguas resucitan
¡Innovación significativa en las habilidades de los agentes! Anthropic actualiza la fábrica de habilidades con un sistema de evals de nivel nuclear, desarrolladores: habilidades antiguas resucitan
Organizado por AI智猩猩 | Editado por: 汐汐
En el campo de los agentes de IA, si has utilizado las habilidades de los agentes, seguramente conocerás el skill-creator, una herramienta de construcción de habilidades sin código lanzada por Anthropic en 2025.
Sin embargo, después de construir una habilidad, aún no se sabe si esta habilidad es útil, si el nuevo modelo aún funciona, si es preciso, o cómo es su rendimiento...
El 3 de marzo, el blog oficial de Anthropic publicó silenciosamente una actualización importante titulada "Improving skill-creator: Test, measure, and refine Agent Skills". Esta actualización ha llevado la "fábrica de habilidades" de Claude a una verdadera madurez.
De "parece que funciona" a "puede ser probado, medido e iterado", se ha resuelto por completo el mayor dolor de cabeza de los autores de habilidades anteriores, que es "¿realmente es útil la habilidad que he creado?"
01 - Revisión de las habilidades de los agentes: un paso clave de asistente general a agente especializado
En octubre de 2025, Anthropic lanzó oficialmente las habilidades de los agentes, un sistema de "paquetes de habilidades" modular y reutilizable. Una carpeta contiene instrucciones SKILL.md, scripts y recursos, que Claude carga automáticamente cuando es necesario, mejorando significativamente el rendimiento en generación de documentos, análisis de datos, cumplimiento de marca, entre otros escenarios.
Las habilidades ya cubren Claude.ai, Claude Code, y toda la plataforma API, y se ha abierto un repositorio en GitHub (actualmente con más de 80,000 estrellas). Sin embargo, la mayor limitación de las versiones tempranas era que los usuarios no técnicos solo podían iterar basándose en su intuición, sin poder cuantificar la efectividad.
Hay dos tipos de habilidades:
1. Mejora de capacidades
Lo que el modelo originalmente "no podía hacer" o "hacía de manera inestable" se estabiliza mediante la inyección de técnicas y patrones específicos a través de las habilidades.
2. Codificación de preferencias
El modelo puede hacer cada paso, pero necesita seguir un orden estricto según el proceso específico del equipo.
5 aspectos destacados de esta actualización:
- Evals (evaluación automatizada): los usuarios solo necesitan describir "palabras clave de prueba + forma esperada de salida" y el skill-creator ejecuta automáticamente la validación.
- Modo Benchmark: ejecuta pruebas estandarizadas en lotes, generando métricas duras como tasa de aprobación, tiempo consumido, y consumo de tokens.
- Ejecución paralela de múltiples agentes: contexto limpio e independiente, evitando contaminación, lo que incrementa drásticamente la velocidad de prueba.
- Comparator (comparación ciega): prueba A/B de dos versiones de habilidades.
- Description Tuning (optimización de descripciones): analiza automáticamente las muestras de indicaciones y sugiere modificaciones en las descripciones.
02 - ¡No hay razón para no instalarlo! Esta actualización resucita habilidades antiguas
La actualización de Anthropic al skill-creator ha provocado rápidamente un intenso debate entre los profesionales y desarrolladores de AI Agent.
03 - El momento CI/CD de los agentes de IA: de obras de arte a productos de ingeniería
La actualización de Anthropic al skill-creator es, en esencia, llevar el ciclo cerrado más maduro de "prueba - referencia - iteración" de la ingeniería de software a usuarios comunes y equipos empresariales con un bajo umbral de entrada. Esto significa que las habilidades de los agentes ya no son un proyecto de prompt desechable, sino un "activo vivo" que puede ser mantenido continuamente, compatible entre versiones de modelos y optimizable mediante datos.
A corto plazo, los principales beneficiarios son los desarrolladores y usuarios empresariales que ya han acumulado una gran cantidad de habilidades personalizadas en Claude Code / Cowork.
Desde una perspectiva más amplia, esta actualización refuerza aún más la "ventaja competitiva de la cadena de herramientas" de Anthropic en el ecosistema de agentes.

