Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生
智猩猩AI整理 | 编辑:汐汐
V svetu AI agentov, če ste uporabljali Agent Skills, potem zagotovo poznate skill-creator, orodje za gradnjo skills brez kode, ki ga je Anthropic izdal leta 2025.
Toda po tem, ko je skill zgrajen, še vedno ni mogoče vedeti, ali je ta skill uporaben, ali je nov model še vedno uporaben, ali deluje natančno, kakšni so rezultati...
Na dan 3. marca je uradni blog Anthropic tiho objavil pomembno posodobitev, imenovano Improving skill-creator: Test, measure, and refine Agent Skills. Ta nadgradnja je Claudeovo "tovarno veščin" resnično pripeljala do zrelosti.
Od "videti se zdi uporabno" do "testirano, merljivo, iterativno", je popolnoma rešila največjo težavo avtorjev veščin, in sicer "Kako dobro deluje skill, ki sem ga ustvaril?"
01 - Agent Skills pregled: ključni korak od splošnega asistenta do specializiranega agenta
V oktobru 2025 je Anthropic uradno predstavil Agent Skills, kar je modularni, ponovno uporaben sistem "skill paketov". En mapa vsebuje SKILL.md navodila, skripte, vire, Claude pa jih samodejno naloži, ko je to potrebno, kar močno izboljša delovanje v scenarijih, kot so generiranje dokumentov, analiza podatkov, skladnost blagovne znamke itd.
Skills so pokrile Claude.ai, Claude Code, API vse platforme in odprle GitHub repozitorij (trenutno več kot 80.000 zvezdic). Vendar je bila največja omejitev zgodnjih različic ta, da so lahko netehnični uporabniki le na podlagi občutka iterirali, brez možnosti kvantificiranja rezultatov.
Skills imata dve vrsti:
1. Tip za izboljšanje sposobnosti
Stvari, ki jih model prvotno "ni mogel" ali "ni stabilno delal", se stabilizirajo z vnosom specifičnih tehnik in vzorcev preko Skills.
2. Tip za kodiranje preferenc
Model lahko opravi vsak korak, vendar mora biti strogo razvrščen po specifičnih procesih ekipe.
5 glavnih poudarkov te nadgradnje:
- Evals (avtomatizirana ocena): Uporabnik mora le opisati "testni poziv + pričakovani izhod", skill-creator pa samodejno izvede preverjanje.
- Benchmark način: množično izvajanje standardiziranih testov, izhodna stopnja uspešnosti, čas trajanja, poraba tokenov in druge trde metrike.
- Več agentov hkrati: neodvisen čist kontekst, da se prepreči onesnaženje, hitrost testiranja se močno poveča.
- Comparator (slepa primerjava): A/B testiranje dveh različic veščin.
- Description Tuning (optimizacija opisov): samodejna analiza vzorčnih pozivov, predlogi za spremembo opisov.
02 - Ni razloga, da ne bi namestili! Ta posodobitev je oživila stare veščine
Anthropicova posodobitev skill-creatorja je hitro sprožila razpravo med strokovnjaki in razvijalci AI agentov.
03 - CI/CD trenutek AI agentov: od umetniškega dela do inženirskega produkta
Anthropicova nadgradnja skill-creatorja je v bistvu prinesla najbolj zrelo "testiranje - benchmark - iteracija" zaprto zanko iz programske inženiringa običajnim uporabnikom in podjetniškim ekipam. To pomeni, da Agent Skills niso več enkratni prompt projekt, ki ga "napišeš in vržeš stran", temveč "živa sredstva", ki jih je mogoče nenehno vzdrževati, so združljiva med različicami modelov in jih je mogoče optimizirati na podlagi podatkov.
Na kratki rok so največji koristniki razvijalci in podjetniški uporabniki, ki so že v Claude Code / Coworku nabrali veliko prilagojenih veščin.
Na bolj makro ravni ta posodobitev dodatno utrjuje Anthropicovo "orodjarno" v ekosistemu agentov.

