Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

3/9/2026
3 min read

Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

智猩猩AI整理 | 编辑:汐汐

U oblasti AI agenata, ako ste koristili Agent Skills, sigurno ste upoznati sa skill-creator, alatom za izgradnju vještina bez koda koji je Anthropic objavio 2025. godine.

Međutim, nakon što se izgradi vještina, i dalje nije moguće znati da li je ta vještina korisna, da li se novi modeli mogu koristiti, da li radi tačno, kakav je učinak...

Dana 3. marta, Anthropic je tiho objavio na svom zvaničnom blogu značajnu nadogradnju pod nazivom Improving skill-creator: Test, measure, and refine Agent Skills. Ova nadogradnja je omogućila da Claude-ova "fabrika vještina" zaista postane zrela.

Od "izgleda da može raditi" do "može se testirati, mjeriti i iterirati", potpuno je riješen najveći problem autora vještina, a to je "kako mogu znati da li je vještina koju sam napravio dobra?"

01 - Agent Skills pregled: ključni korak od općeg asistenta do profesionalnog agenta

U oktobru 2025. godine, Anthropic je zvanično lansirao Agent Skills, što je modularni, ponovo upotrebljiv sistem "paketa vještina". Jedan folder sadrži SKILL.md upute, skripte, resurse, a Claude automatski učitava kada je potrebno, značajno poboljšavajući performanse u generisanju dokumenata, analizi podataka, usklađenosti brenda i drugim scenarijima.

Vještine su pokrile Claude.ai, Claude Code, API sve platforme, i otvoren je GitHub repozitorij (trenutno sa više od 80.000 zvjezdica). Međutim, najveće ograničenje ranih verzija je to što su ne-tehnički korisnici mogli samo nasumično iterirati, bez mogućnosti kvantifikacije učinka.

Vještine imaju dvije vrste:

1. Tip za poboljšanje sposobnosti

Stvari koje model izvorno "nije mogao" ili "nije radio stabilno", stabilizuju se dodavanjem specifičnih trikova i obrazaca putem vještina.

2. Tip za kodiranje preferencija

Model može raditi svaki korak, ali je potrebno strogo sortirati prema specifičnom procesu tima.

Pet glavnih istaknutih tačaka ove nadogradnje:

  • Evals (automatska procjena): Korisnici samo trebaju opisati "testni prompt + očekivani izlaz", skill-creator automatski pokreće verifikaciju.
  • Benchmark način: Masovno pokretanje standardizovanih testova, izlaz stope prolaznosti, vrijeme trajanja, potrošnja Token-a i drugi tvrdi indikatori.
  • Paralelno izvršavanje više agenata: Nezavisni čisti kontekst, izbjegavanje zagađenja, brzina testiranja se drastično povećava.
  • Comparator (slijepa testiranja): A/B testiranje dvije verzije vještina.
  • Description Tuning (optimizacija opisa): Automatska analiza uzoraka prompta, preporučuje izmjene opisa.

02 - Nema razloga da ne instalirate! Ova nadogradnja vraća stare vještine u život

Anthropic-ova nadogradnja skill-creator-a brzo je izazvala raspravu među AI Agent profesionalcima i programerima.

03 - CI/CD trenutak AI agenata: od umjetničkog djela do inženjerskog proizvoda

Anthropic-ova nadogradnja skill-creator-a suštinski je donijela najzreliji "test-benchmark-iteracija" ciklus iz softverskog inženjerstva običnim korisnicima i timovima preduzeća. To znači da Agent Skills više nisu "jednokratni prompt" koji se piše i zaboravlja, već "živi kapital" koji se može kontinuirano održavati, kompatibilan preko verzija modela i optimizovan na osnovu podataka.

U kratkom roku, najveći korisnici su programeri i poslovni korisnici koji su već akumulirali veliki broj prilagođenih vještina u Claude Code / Cowork.

Gledajući iz šire perspektive, ova nadogradnja dodatno učvršćuje Anthropic-ovu "alate zaštitnu barijeru" u Agent ekosistemu.

Published in Technology

You Might Also Like