Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
智猩猩AI整理 | 编辑:汐汐
U oblasti AI agenata, ako ste koristili Agent Skills, sigurno ste čuli za skill-creator, alat za izgradnju veština bez koda koji je Anthropic objavio 2025. godine.
Međutim, nakon što se veština izgradi, i dalje nije jasno da li je ta veština korisna, da li se novi modeli mogu koristiti, da li radi tačno, kakvi su rezultati...
Dana 3. marta, zvanični blog Anthropic-a tiho je objavio značajnu nadogradnju pod nazivom Improving skill-creator: Test, measure, and refine Agent Skills. Ova nadogradnja je omogućila da Claude-ova "fabrika veština" zaista postane zrela.
Od "izgleda korisno" do "testirano, merljivo, iterativno", ovo je potpuno rešilo najveći problem autora veština, a to je "kako da znam da li je veština koju sam napravio zaista korisna?"
01 - Agent Skills pregled: ključni korak od opšteg asistenta do profesionalnog agenta
U oktobru 2025. godine, Anthropic je zvanično lansirao Agent Skills, što je modularni, ponovo upotrebljiv sistem "paketa veština". Jedan folder sadrži SKILL.md instrukcije, skripte, resurse, a Claude automatski učitava kada je potrebno, značajno poboljšavajući performanse u generisanju dokumenata, analizi podataka, usklađenosti brenda i drugim scenarijima.
Veštine su pokrile Claude.ai, Claude Code, API sve platforme, i otvorile GitHub repozitorij (trenutno sa više od 80.000 zvezdica). Međutim, najveće ograničenje ranih verzija je to što su ne-tehnički korisnici mogli da iteriraju samo na osnovu osećaja, bez mogućnosti kvantifikacije rezultata.
Veštine imaju dve vrste:
1. Povećanje sposobnosti
Stvari koje model izvorno "nije mogao" ili "nije radio stabilno" se stabilizuju kroz Skills unošenjem specifičnih trikova i obrazaca.
2. Kodiranje preferencija
Model može da uradi svaki korak, ali je potrebno strogo sortirati prema specifičnom procesu tima.
Ova nadogradnja ima 5 glavnih karakteristika:
- Evals (automatska procena): Korisnici samo treba da opišu "testni prompt + očekivani izlaz", skill-creator automatski pokreće verifikaciju.
- Benchmark mod: Grupno pokretanje standardizovanih testova, izlaz sa stopom prolaznosti, vremenom trajanja, potrošnjom Token-a i drugim tvrdim metrikama.
- Paralelno izvršavanje više agenata: Nezavisni čisti kontekst, izbegavanje zagađenja, brzina testiranja se drastično povećava.
- Comparator (slepo testiranje): A/B testiranje dve verzije veštine.
- Description Tuning (optimizacija opisa): Automatska analiza uzoraka prompta, preporuke za izmene opisa.
02 - Nema razloga da se ne instalira! Ova nadogradnja vraća stare veštine u život
Anthropic-ova nadogradnja skill-creator-a brzo je izazvala raspravu među AI Agent profesionalcima i developerima.
03 - CI/CD trenutak AI agenata: od umetničkog dela do inženjerskog proizvoda
Anthropic-ova nadogradnja skill-creator-a suštinski je donela najzreliji "test-standarde-iteracije" krug softverskog inženjeringa običnim korisnicima i timovima preduzeća sa niskim barijerama. To znači da Agent Skills više nisu "jednokratni prompt" koji se piše i baca, već "živi resurs" koji se može kontinuirano održavati, kompatibilan između verzija modela i optimizovan na osnovu podataka.
U kratkom roku, najveći korisnici su developeri i preduzeća koja su već akumulirala veliki broj prilagođenih veština u Claude Code / Cowork.
Gledajući iz šire perspektive, ova nadogradnja dodatno učvršćuje "alate" kao zaštitni pojas Anthropic-a u Agent ekosistemu.

