Agent Skills oluline uuendus! Anthropic uuendab oskuste tehast, lisades tuumarelvatasemel evals süsteemi, arendajad: vanad oskused saavad uue elu
Agent Skills oluline uuendus! Anthropic uuendab oskuste tehast, lisades tuumarelvatasemel evals süsteemi, arendajad: vanad oskused saavad uue elu
智猩猩AI整理 | 编辑:汐汐
AI intelligentsi agentide valdkonnas, kui olete kasutanud Agent Skills, siis kindlasti teate skill-creator'it, mis on Anthropic'i 2025. aastal välja antud oskuste nullkoodiga loomise tööriist.
Kuid pärast oskuse loomist ei olnud endiselt selge, kas see oskus on kasulik, kas uus mudel töötab, kas see töötab täpselt, kuidas on tulemused...
"Näib, et see töötab" muutus "testitavaks, mõõdetavaks, iteratiivseks", lahendades täielikult varasemate oskuste autorite suurima mure, nimelt "kas minu loodud oskus on tõeliselt kasulik?"
01 - Agent Skills ülevaade: oluline samm üldise assistendi ja professionaalse agendi vahel
Oskused on katnud Claude.ai, Claude Code, API kogu platvormi ja avatud GitHubi hoidla (hetkel üle 80 000 tähise). Kuid varasemate versioonide suurim piirang oli see, et mitte-tehnilised kasutajad said iteratsiooni teha ainult tunnetuse põhjal, ilma tulemuste kvantifitseerimiseta.
Oskustel on kaks tüüpi:
1. Võimekuse tõstmise tüüp
Mudel suudab algselt "teha" või "teha ebastabiilselt" asju, kasutades oskuste kaudu spetsiifilisi tehnikaid ja mustreid, et stabiilselt väljundit saavutada.
2. Eelistuste kodeerimise tüüp
Mudel suudab iga sammu teha, kuid peab järgima meeskonna spetsiifilist protsessi rangelt.
Selle uuenduse 5 peamist punkti:
- Evals (automaatne hindamine): kasutajad peavad lihtsalt kirjeldama "testimise märksõna + oodatud väljund" skill-creator käivitab automaatselt valideerimise.
- Benchmark režiim: standardiseeritud testide massiline käitamine, väljundite läbimise määr, aega, Tokeni tarbimist jne kõvad näitajad.
- Mitme agendi paralleelne täitmine: iseseisev puhas kontekst, vältides saastumist, testimise kiirus suureneb.
- Comparator (pime testimine): A/B testimine kahe oskuse versiooni vahel.
- Description Tuning (käivitamise kirjelduse optimeerimine): automaatne analüüs näidismärksõnadest, soovitades muuta kirjeldust.
02 - Pole põhjust mitte installida! See uuendus annab vanadele oskustele uue elu
Anthropic'i skill-creator'i see uuendus tekitas kiiresti arutelusid AI agendi spetsialistide ja arendajate seas.
03 - AI agendi CI/CD hetk: kunstiteosest inseneritooteks
Anthropic'i see skill-creator'i uuendus on sisuliselt toonud tarkvaraarenduses kõige küpsema "testimise-standardi-iteratsiooni" sulgemise madala lävega tavalistele kasutajatele ja ettevõtte meeskondadele. See tähendab, et Agent Skills ei ole enam "kirjuta ja viska ära" ühekordne prompt projekt, vaid pidevalt hooldatav, erinevate mudelite versioonide vahel ühilduv, andmete põhjal optimeeritav "elav vara".
Lühiajaliselt on suurimad kasusaajad need, kes on juba Claude Code / Cowork'is kogunud hulgaliselt kohandatud oskusi arendajatena ja ettevõtte kasutajatena.
Ja vaadates laiemat perspektiivi, on see uuendus veelgi kindlustanud Anthropic'i "tööriistade ahela kaitsekaevu" Agent ökosüsteemis.

