Важливі зміни в Agent Skills! Anthropic оновлює Skill Factory, впроваджуючи ядерну систему evals, розробники: старі навички повертаються до життя
Важливі зміни в Agent Skills! Anthropic оновлює Skill Factory, впроваджуючи ядерну систему evals, розробники: старі навички повертаються до життя
智猩猩AI整理 | 编辑:汐汐
У сфері AI-агентів, якщо ви використовували Agent Skills, то напевно знаєте про skill-creator, інструмент безкодової розробки навичок, випущений Anthropic у 2025 році.
Але після створення навички все ще неможливо дізнатися, чи є ця навичка корисною, чи може нова модель її використовувати, чи працює вона точно, які її результати...
3 березня на офіційному блозі Anthropic тихо було опубліковано важливе оновлення під назвою Improving skill-creator: Test, measure, and refine Agent Skills. Це оновлення дало можливість "фабриці навичок" Claude справді досягти зрілості.
Від "виглядає корисним" до "можна тестувати, вимірювати, ітеративно вдосконалювати" - це повністю вирішило найбільшу проблему авторів навичок, а саме: "наскільки корисною є навичка, яку я створив?"
01 - Огляд Agent Skills: ключовий крок від універсального помічника до професійного агента
У жовтні 2025 року Anthropic офіційно запустила Agent Skills, це модульна, багаторазова система "пакетів навичок". У папці містяться інструкції SKILL.md, скрипти, ресурси, які Claude автоматично завантажує за потреби, значно покращуючи результати в таких сферах, як генерація документів, аналіз даних, відповідність бренду тощо.
Навички охоплюють всю платформу Claude.ai, Claude Code, API та відкритий репозиторій GitHub (на даний момент понад 80 тисяч зірок). Але найбільшим обмеженням ранніх версій було те, що нетехнічні користувачі могли лише інтуїтивно ітеративно вдосконалювати, не маючи можливості кількісно перевірити результати.
Існує два типи навичок:
1. Тип підвищення можливостей
Речі, які модель спочатку "не могла" або "не була стабільною", стабілізуються за допомогою навичок, які вводять специфічні трюки та моделі.
2. Тип кодування уподобань
Модель може виконувати кожен крок, але потрібно строго дотримуватися специфічного процесу команди.
П'ять основних моментів цього оновлення:
- Evals (автоматизована оцінка): користувачам потрібно лише описати "тестовий запит + очікуваний результат", skill-creator автоматично виконує перевірку.
- Режим Benchmark: масове виконання стандартизованих тестів, виведення показників проходження, витрат часу, споживання токенів тощо.
- Паралельне виконання кількох агентів: незалежний чистий контекст, уникнення забруднення, швидкість тестування зростає.
- Comparator (сліпе порівняння): A/B тестування двох версій навичок.
- Description Tuning (оптимізація опису): автоматичний аналіз зразків запитів, рекомендації щодо зміни опису.
02 - Немає причин не встановлювати! Це оновлення повертає старі навички до життя
Оновлення skill-creator від Anthropic швидко викликало обговорення серед професіоналів AI Agent та розробників.
03 - Момент CI/CD для AI-агентів: перетворення з витвору мистецтва на інженерний продукт
Оновлення skill-creator від Anthropic по суті є впровадженням найзрілішого циклу "тестування - бенчмаркінг - ітерація" з програмної інженерії для звичайних користувачів та команд підприємств. Це означає, що Agent Skills більше не є одноразовим проектом prompt, який "написав і викинув", а може бути постійно підтримуваним, сумісним між версіями моделей, оптимізованим за даними "живим активом".
У короткостроковій перспективі найбільшими вигодами користуються розробники та корпоративні користувачі, які вже накопичили велику кількість кастомізованих навичок у Claude Code / Cowork.
А з більш широкої перспективи, це оновлення ще більше зміцнило "оборонний вал інструментів" Anthropic в екосистемі агентів.

