Agent Skills oluline uuendus! Anthropic uuendab oskuste tehast, lisades tuumarelvatasemel evals süsteemi, arendajad: vanad oskused saavad uue elu

3/9/2026
3 min read

Agent Skills oluline uuendus! Anthropic uuendab oskuste tehast, lisades tuumarelvatasemel evals süsteemi, arendajad: vanad oskused saavad uue elu

智猩猩AI整理 | 编辑:汐汐

AI intelligentsi agentide valdkonnas, kui olete kasutanud Agent Skills, siis kindlasti teate skill-creator'it, mis on Anthropic'i 2025. aastal välja antud oskuste nullkoodiga loomise tööriist.

Kuid pärast oskuse loomist ei olnud endiselt selge, kas see oskus on kasulik, kas uus mudel töötab, kas see töötab täpselt, kuidas on tulemused...

  • märtsil avaldas Anthropic ametlik blogi vaikselt olulise uuenduse, mille pealkiri on "Improving skill-creator: Test, measure, and refine Agent Skills". See uuendus viis Claude'i "oskuste tehase" tõeliselt küpseks.
  • "Näib, et see töötab" muutus "testitavaks, mõõdetavaks, iteratiivseks", lahendades täielikult varasemate oskuste autorite suurima mure, nimelt "kas minu loodud oskus on tõeliselt kasulik?"

    01 - Agent Skills ülevaade: oluline samm üldise assistendi ja professionaalse agendi vahel

  • aasta oktoobris tutvustas Anthropic ametlikult Agent Skills'i, mis on modulaarne, taaskasutatav "oskuste pakett" süsteem. Ühes kaustas on SKILL.md juhised, skriptid, ressursid, mida Claude laadib automaatselt, kui on vajalik, oluliselt parandades dokumentide genereerimist, andmeanalüüsi, brändi vastavust jne.
  • Oskused on katnud Claude.ai, Claude Code, API kogu platvormi ja avatud GitHubi hoidla (hetkel üle 80 000 tähise). Kuid varasemate versioonide suurim piirang oli see, et mitte-tehnilised kasutajad said iteratsiooni teha ainult tunnetuse põhjal, ilma tulemuste kvantifitseerimiseta.

    Oskustel on kaks tüüpi:

    1. Võimekuse tõstmise tüüp

    Mudel suudab algselt "teha" või "teha ebastabiilselt" asju, kasutades oskuste kaudu spetsiifilisi tehnikaid ja mustreid, et stabiilselt väljundit saavutada.

    2. Eelistuste kodeerimise tüüp

    Mudel suudab iga sammu teha, kuid peab järgima meeskonna spetsiifilist protsessi rangelt.

    Selle uuenduse 5 peamist punkti:

    • Evals (automaatne hindamine): kasutajad peavad lihtsalt kirjeldama "testimise märksõna + oodatud väljund" skill-creator käivitab automaatselt valideerimise.
    • Benchmark režiim: standardiseeritud testide massiline käitamine, väljundite läbimise määr, aega, Tokeni tarbimist jne kõvad näitajad.
    • Mitme agendi paralleelne täitmine: iseseisev puhas kontekst, vältides saastumist, testimise kiirus suureneb.
    • Comparator (pime testimine): A/B testimine kahe oskuse versiooni vahel.
    • Description Tuning (käivitamise kirjelduse optimeerimine): automaatne analüüs näidismärksõnadest, soovitades muuta kirjeldust.

    02 - Pole põhjust mitte installida! See uuendus annab vanadele oskustele uue elu

    Anthropic'i skill-creator'i see uuendus tekitas kiiresti arutelusid AI agendi spetsialistide ja arendajate seas.

    03 - AI agendi CI/CD hetk: kunstiteosest inseneritooteks

    Anthropic'i see skill-creator'i uuendus on sisuliselt toonud tarkvaraarenduses kõige küpsema "testimise-standardi-iteratsiooni" sulgemise madala lävega tavalistele kasutajatele ja ettevõtte meeskondadele. See tähendab, et Agent Skills ei ole enam "kirjuta ja viska ära" ühekordne prompt projekt, vaid pidevalt hooldatav, erinevate mudelite versioonide vahel ühilduv, andmete põhjal optimeeritav "elav vara".

    Lühiajaliselt on suurimad kasusaajad need, kes on juba Claude Code / Cowork'is kogunud hulgaliselt kohandatud oskusi arendajatena ja ettevõtte kasutajatena.

    Ja vaadates laiemat perspektiivi, on see uuendus veelgi kindlustanud Anthropic'i "tööriistade ahela kaitsekaevu" Agent ökosüsteemis.

    Published in Technology

    You Might Also Like