¡Innovación significativa en las habilidades de los agentes! Anthropic actualiza la fábrica de habilidades con un sistema de evals de nivel nuclear, desarrolladores: habilidades antiguas resucitan
¡Innovación significativa en las habilidades de los agentes! Anthropic actualiza la fábrica de habilidades con un sistema de evals de nivel nuclear, desarrolladores: habilidades antiguas resucitan
Organizado por AI智猩猩 | Editado por 汐汐
En el campo de los agentes de IA, si has utilizado las habilidades de los agentes, seguramente conocerás el skill-creator, una herramienta de construcción de habilidades sin código lanzada por Anthropic en 2025.
Sin embargo, después de construir una habilidad, aún no se sabe si esa habilidad es útil, si el nuevo modelo aún puede utilizarse, si funciona con precisión, o cómo es su efectividad...
El 3 de marzo, el blog oficial de Anthropic publicó silenciosamente una actualización importante titulada "Mejorando el skill-creator: prueba, mide y refina las habilidades de los agentes". Esta actualización llevó la "fábrica de habilidades" de Claude a una verdadera madurez.
De "parece que puede funcionar" a "es testeable, medible e iterativo", se resolvió por completo el mayor dolor de cabeza de los autores de habilidades anteriores, que era "¿realmente son útiles las habilidades que he creado?"
01 - Revisión de las habilidades de los agentes: un paso clave de asistente general a agente especializado
En octubre de 2025, Anthropic lanzó oficialmente las habilidades de los agentes, un sistema de "paquetes de habilidades" modular y reutilizable. Una carpeta contiene instrucciones SKILL.md, scripts y recursos, que Claude carga automáticamente cuando es necesario, mejorando significativamente el rendimiento en generación de documentos, análisis de datos, cumplimiento de marca, entre otros escenarios.
Las habilidades ya cubren Claude.ai, Claude Code, y toda la plataforma API, y se ha abierto un repositorio en GitHub (actualmente con más de 80,000 estrellas). Sin embargo, la mayor limitación de las versiones tempranas era que los usuarios no técnicos solo podían iterar basándose en su intuición, sin poder cuantificar la efectividad.
Hay dos tipos de habilidades:
1. Mejora de capacidades
Lo que el modelo originalmente "no podía hacer" o "no hacía de manera estable" se estabiliza mediante la inyección de técnicas y patrones específicos a través de las habilidades.
2. Codificación de preferencias
El modelo puede hacer cada paso, pero necesita ser ordenado estrictamente según el proceso específico del equipo.
5 aspectos destacados de esta actualización:
- Evals (evaluaciones automatizadas): los usuarios solo necesitan describir "palabras clave de prueba + forma esperada de salida" y el skill-creator ejecuta automáticamente la validación.
- Modo Benchmark: ejecuta pruebas estandarizadas en lotes, produciendo tasas de aprobación, tiempo consumido, consumo de tokens y otros indicadores duros.
- Ejecución paralela de múltiples agentes: contexto limpio e independiente, evitando contaminación, aumentando drásticamente la velocidad de prueba.
- Comparator (comparación ciega): prueba A/B de dos versiones de habilidades.
- Description Tuning (optimización de descripciones): analiza automáticamente las muestras de indicaciones y sugiere modificaciones en las descripciones.
02 - ¡No hay razón para no instalarlo! Esta actualización resucita habilidades antiguas
La actualización de Anthropic al skill-creator ha provocado rápidamente un intenso debate entre los profesionales y desarrolladores de AI Agent.
03 - El momento CI/CD de los agentes de IA: de obras de arte a productos de ingeniería
La actualización de Anthropic al skill-creator es, en esencia, llevar el ciclo cerrado más maduro de "prueba - referencia - iteración" de la ingeniería de software a usuarios comunes y equipos empresariales con una baja barrera de entrada. Esto significa que las habilidades de los agentes ya no son un proyecto de prompt desechable, sino un "activo vivo" que puede mantenerse de manera continua, ser compatible entre versiones de modelos y optimizarse de manera cuantificable.
A corto plazo, los mayores beneficiarios son los desarrolladores y usuarios empresariales que ya han acumulado una gran cantidad de habilidades personalizadas en Claude Code / Cowork.
Desde una perspectiva más amplia, esta actualización refuerza aún más la "ventaja competitiva de la cadena de herramientas" de Anthropic en el ecosistema de agentes.

