Agent Skills : Une Révolution Majeure ! Anthropic Met à Niveau le Skill Factory avec un Système d'Evals de Niveau Nucléaire, Développeurs : Les Anciennes Compétences Reviennent à la Vie
Agent Skills : Une Révolution Majeure ! Anthropic Met à Niveau le Skill Factory avec un Système d'Evals de Niveau Nucléaire, Développeurs : Les Anciennes Compétences Reviennent à la Vie
智猩猩AI整理 | 编辑:汐汐
Dans le domaine des agents AI, si vous avez utilisé Agent Skills, vous connaissez sûrement le skill-creator, cet outil de construction de compétences sans code publié par Anthropic en 2025.
Cependant, une fois la compétence construite, il est toujours impossible de savoir si cette compétence est utile, si le nouveau modèle peut encore être utilisé, si l'exécution est précise, quel est son effet...
Le 3 mars, le blog officiel d'Anthropic a discrètement publié une mise à jour majeure intitulée Improving skill-creator: Test, measure, and refine Agent Skills. Cette mise à jour a véritablement fait mûrir la "skill factory" de Claude.
Passant de "semble utilisable" à "testable, mesurable, itérable", cela a complètement résolu le plus grand point de douleur des auteurs de compétences, à savoir "la compétence que j'ai créée est-elle vraiment utile ?"
01 - Rétrospective sur Agent Skills : Une Étape Clé de l'Assistant Général au Spécialiste Intelligent
En octobre 2025, Anthropic a officiellement lancé Agent Skills, un système de "paquet de compétences" modulaire et réutilisable. Un dossier contient des instructions SKILL.md, des scripts, des ressources, que Claude charge automatiquement au besoin, améliorant considérablement les performances dans des scénarios tels que la génération de documents, l'analyse de données, et la conformité de marque.
Les compétences couvrent déjà Claude.ai, Claude Code, et l'ensemble de la plateforme API, avec un dépôt GitHub ouvert (actuellement plus de 80 000 étoiles). Cependant, la plus grande limitation des versions antérieures était que les utilisateurs non techniques ne pouvaient itérer que sur la base de leur ressenti, sans pouvoir quantifier les résultats.
Il existe deux types de compétences :
1. Amélioration des capacités
Des tâches que le modèle "ne pouvait pas faire" ou "faisait de manière instable" peuvent être stabilisées grâce à l'injection de techniques et de modèles spécifiques via les compétences.
2. Codage des préférences
Le modèle peut effectuer chaque étape, mais doit être strictement ordonné selon le processus spécifique de l'équipe.
Cinq points forts de cette mise à jour :
- Evals (évaluation automatisée) : L'utilisateur n'a qu'à décrire "test prompt + résultat attendu", et le skill-creator exécute automatiquement la validation.
- Mode Benchmark : Exécute des tests standardisés en masse, produisant des indicateurs durs tels que le taux de réussite, le temps nécessaire, la consommation de tokens, etc.
- Exécution parallèle multi-agents : Contexte propre et indépendant, évitant la pollution, vitesse de test considérablement augmentée.
- Comparator (comparaison à l'aveugle) : Test A/B de deux versions de compétences.
- Description Tuning (optimisation de la description) : Analyse automatique des échantillons de prompts, suggestions de modifications de la description.
02 - Aucune raison de ne pas installer ! Cette mise à jour redonne vie aux anciennes compétences
La mise à jour d'Anthropic sur le skill-creator a rapidement suscité des discussions animées parmi les professionnels et développeurs d'agents AI.
03 - Le moment CI/CD des agents AI : De l'œuvre d'art au produit d'ingénierie
La mise à niveau d'Anthropic sur le skill-creator est essentiellement une manière d'apporter au grand public et aux équipes d'entreprise le cycle de "test - benchmark - itération" le plus mature du génie logiciel, à faible barrière d'entrée. Cela signifie que les Agent Skills ne sont plus un projet de prompt jetable, mais un "actif vivant" pouvant être maintenu en continu, compatible entre les versions de modèles, et optimisé de manière datée.
À court terme, les plus grands bénéficiaires sont les développeurs et utilisateurs d'entreprise qui ont déjà accumulé de nombreuses compétences personnalisées dans Claude Code / Cowork.
D'un point de vue plus macro, cette mise à jour renforce encore la "forteresse de la chaîne d'outils" d'Anthropic dans l'écosystème des agents.

