Agent Skills didelės inovacijos! Anthropic atnaujino įgūdžių gamyklą, įdiegdama branduolinio lygio evals sistemą, kūrėjai: seni įgūdžiai atgimsta
Agent Skills didelės inovacijos! Anthropic atnaujino įgūdžių gamyklą, įdiegdama branduolinio lygio evals sistemą, kūrėjai: seni įgūdžiai atgimsta
Išmanusis AI apžvalga | Redagavo: Xi Xi
AI agentų srityje, jei naudojote Agent Skills, tikrai žinote apie skill-creator, tai yra be kodų įrankis, kurį 2025 m. išleido Anthropic.
Tačiau sukūrus įgūdį, vis tiek neaišku, ar šis įgūdis yra naudingas, ar naujas modelis vis dar veikia, ar jis veikia tiksliai, kaip jis veikia...
Kovo 3 d. Anthropic oficialiame tinklaraštyje tyliai paskelbė svarbų atnaujinimą, pavadintą "Improving skill-creator: Test, measure, and refine Agent Skills". Šis atnaujinimas leido Claude'o "įgūdžių gamyklai" iš tikrųjų pasiekti brandą.
Nuo "atrodo, kad veikia" iki "testuojama, matuojama, iteruojama", visiškai išsprendė anksčiau buvusią didžiausią įgūdžių autorių problemą, būtent "ar mano sukurtas įgūdis iš tikrųjų veikia?"
01 - Agent Skills apžvalga: nuo bendro asistento iki specializuoto agento svarbus žingsnis
2025 m. spalio mėn. Anthropic oficialiai pristatė Agent Skills, tai yra modulinė, pakartotinai naudojama "įgūdžių paketo" sistema. Viename aplanke yra SKILL.md instrukcijos, scenarijai, ištekliai, Claude automatiškai įkelia, kai reikia, žymiai pagerindamas dokumentų generavimą, duomenų analizę, prekės ženklų atitiktį ir kt.
Įgūdžiai jau apima Claude.ai, Claude Code, API visose platformose ir atvėrė GitHub saugyklą (šiuo metu žvaigždžių skaičius viršija 80 000). Tačiau ankstyvos versijos didžiausia apribojimas buvo tas, kad ne techniniai vartotojai galėjo tik jausti, kaip iteruoti, negalėdami kiekybiškai patvirtinti efektyvumo.
Įgūdžiai turi dvi rūšis:
1. Gebėjimų didinimo tipas
Modelis iš pradžių "negali padaryti" arba "darbo nestabiliai" dalykų, per Įgūdžius įterpiant specifinius triukus, modelius, kad stabilizuotų išvestį.
2. Pageidavimų kodavimo tipas
Modelis gali atlikti kiekvieną žingsnį, tačiau reikia griežtai sekti komandos specifinį procesą.
Šio atnaujinimo 5 pagrindiniai akcentai:
- Evals (automatiniai vertinimai): vartotojams tereikia apibūdinti "testavimo užklausą + pageidaujamą išvestį", skill-creator automatiškai vykdo patikrinimą.
- Benchmark režimas: masiškai vykdo standartizuotus testus, pateikia praėjimo rodiklius, laiką, Token sunaudojimą ir kt. kietus rodiklius.
- Daug agentų lygiagreti vykdymas: nepriklausoma švari kontekstas, kad būtų išvengta užteršimo, testavimo greitis smarkiai padidėja.
- Comparator (aklas palyginimas): A/B testuoja du įgūdžių variantus.
- Description Tuning (aprašymo optimizavimas): automatiškai analizuoja pavyzdžių užklausas, siūlo pakeisti aprašymą.
02 - Nėra priežasties neįdiegti! Šis atnaujinimas atgaivina senus įgūdžius
Anthropic atnaujinimas skill-creator greitai sukėlė diskusijas tarp AI agentų specialistų ir kūrėjų.
03 - AI agentų CI/CD akimirka: nuo meno kūrinio iki inžinerinio produkto
Anthropic šis skill-creator atnaujinimas iš esmės yra tai, kad geriausiai išvystyta "testavimo-standartizavimo-iteravimo" uždara sistema, lengvai prieinama paprastiems vartotojams ir įmonių komandoms. Tai reiškia, kad Agent Skills nebėra "parašyta ir pamiršta" vienkartinė užklausa, o gali būti nuolat prižiūrima, suderinama tarp modelių versijų, duomenimis pagrįsta optimizuota "gyva turto".
Trumpuoju laikotarpiu didžiausią naudą gauna tie, kurie jau sukaupė daug pritaikytų įgūdžių Claude Code / Cowork.
Žvelgiant į platesnį kontekstą, šis atnaujinimas dar labiau sustiprina Anthropic "įrankių grandinės gynybos liniją" Agentų ekosistemoje.

