Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

3/9/2026
3 min read

Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

智猩猩AI整理 | 编辑:汐汐

V oblasti AI agentov, ak ste niekedy použili Agent Skills, určite poznáte skill-creator, nástroj bez kódu na vytváranie zručností, ktorý vydal Anthropic v roku 2025.

Ale po vytvorení zručnosti stále neexistuje spôsob, ako zistiť, či je táto zručnosť užitočná, či nový model ešte funguje, či je presný, aký je jeho výkon...

Dňa 3. marca oficiálny blog Anthropic potichu zverejnil významnú aktualizáciu s názvom Improving skill-creator: Test, measure, and refine Agent Skills. Táto aktualizácia posunula "továreň na zručnosti" Claude naozaj k zrelosti.

Od "vyzerá to, že to funguje" po "testovateľné, merateľné, iterovateľné" sa úplne vyriešil najväčší problém autorov zručností, a to "ako dobre funguje zručnosť, ktorú som vytvoril?"

01 - Agent Skills spätný pohľad: Kľúčový krok od všeobecného asistenta k profesionálnemu agentovi

V októbri 2025 Anthropic oficiálne predstavil Agent Skills, čo je modulárny, znovu použiteľný systém "balíkov zručností". Jedna zložka obsahuje pokyny SKILL.md, skripty a zdroje, ktoré Claude automaticky načíta, keď je to potrebné, čo výrazne zvyšuje výkon v generovaní dokumentov, analýze dát, dodržiavaní značky a ďalších scenároch.

Zručnosti pokrývajú Claude.ai, Claude Code, API na všetkých platformách a otvorili GitHub repozitár (v súčasnosti má viac ako 80 000 hviezdičiek). Ale najväčšou obmedzenosťou raných verzií bolo, že netechnickí používatelia mohli iterovať len na základe pocitov, bez možnosti kvantifikovať a overiť účinnosť.

Zručnosti sú dvoch typov:

1. Zlepšovanie schopností

Veci, ktoré model pôvodne "nedokázal" alebo "nefungovali stabilne", sa stabilizujú pomocou zručností, ktoré vkladajú špecifické techniky a vzory.

2. Kódovanie preferencií

Model môže vykonať každý krok, ale musí byť prísne usporiadaný podľa špecifických procesov tímu.

5 hlavných bodov tejto aktualizácie:

  • Evals (automatizované hodnotenie): Používateľ len popíše "testovací prompt + očakávaný výstup", skill-creator automaticky vykoná overenie.
  • Benchmark režim: Hromadne vykonáva štandardizované testy, poskytuje tvrdé ukazovatele ako miera úspešnosti, čas strávený, spotreba tokenov a ďalšie.
  • Paralelné vykonávanie viacerých agentov: Nezávislý a čistý kontext, aby sa predišlo kontaminácii, rýchlosť testovania sa dramaticky zvyšuje.
  • Comparator (slepé porovnanie): A/B testovanie dvoch verzií zručností.
  • Description Tuning (optimalizácia popisu): Automatická analýza vzorových promptov, odporúčania na úpravu popisu.

02 - Nie je dôvod neinstalovať! Táto aktualizácia oživila staré zručnosti

Aktualizácia skill-creator od Anthropic rýchlo vyvolala diskusie medzi profesionálmi a vývojármi AI agentov.

03 - CI/CD moment AI agentov: Z umeleckého diela sa stal inžiniersky produkt

Aktualizácia skill-creator od Anthropic v podstate priniesla najzrelší cyklus "testovania - benchmarkovania - iterácie" zo softvérového inžinierstva bežným používateľom a tímom firiem s nízkou prekážkou. To znamená, že Agent Skills už nie sú "jednorazovým promptom, ktorý sa napíše a zahodí", ale "živým aktívom", ktoré je možné neustále udržiavať, je kompatibilné naprieč verziami modelov a je možné ho optimalizovať na základe dát.

Z krátkodobého hľadiska sú najväčšími prínosmi tí vývojári a firemní používatelia, ktorí už v Claude Code / Cowork nahromadili množstvo prispôsobených zručností.

A z pohľadu širšieho kontextu táto aktualizácia ďalej posilnila "ochranný múr nástrojového reťazca" Anthropic v ekosystéme agentov.

Published in Technology

You Might Also Like