Agent Skills store innovation! Anthropic opgraderer skill-fabrikken med et nukleart evalueringssystem, udviklere: gamle færdigheder genopstår
Agent Skills store innovation! Anthropic opgraderer skill-fabrikken med et nukleart evalueringssystem, udviklere: gamle færdigheder genopstår
智猩猩AI整理 | 编辑:汐汐
I AI-agentverdenen, hvis du har brugt Agent Skills, så kender du helt sikkert skill-creator, et nul-kode værktøj til opbygning af færdigheder, der blev udgivet af Anthropic i 2025.
Men efter at have bygget en færdighed, er det stadig umuligt at vide, om denne færdighed er nyttig, om den nye model stadig kan bruges, om den kører korrekt, og hvordan effekten er...
Den 3. marts offentliggjorde Anthropic's officielle blog stille og roligt en vigtig opdatering kaldet Improving skill-creator: Test, measure, and refine Agent Skills. Denne opgradering har gjort Claudes "skill-fabrik" virkelig moden.
Fra "ser ud til at være brugbar" til "testbar, målbar, iterativ" har det fuldstændigt løst det største smertepunkt for tidligere færdighedsforfattere, nemlig "er de færdigheder, jeg har lavet, overhovedet brugbare?"
01 - Agent Skills gennemgang: Et nøgleskridt fra generel assistent til professionel agent
I oktober 2025 lancerede Anthropic officielt Agent Skills, et modulært, genanvendeligt "færdighedspakke" system. En mappe indeholder SKILL.md instruktioner, scripts, ressourcer, som Claude automatisk indlæser, når det er nødvendigt, hvilket markant forbedrer dokumentgenerering, dataanalyse, brandoverholdelse og andre scenarier.
Skills dækker nu hele Claude.ai, Claude Code, API-platformen og har åbnet et GitHub-repository (i øjeblikket over 80.000 stjerner). Men den største begrænsning ved de tidlige versioner var, at ikke-tekniske brugere kun kunne iterere baseret på fornemmelser, uden at kunne kvantificere effekten.
Der er to typer Skills:
1. Kapacitetsforbedrende
Opgaver, som modellen oprindeligt "ikke kunne" eller "ikke var stabil" til at udføre, stabiliseres ved at injicere specifikke teknikker og mønstre gennem Skills.
2. Præferencekodning
Modellen kan udføre hver enkelt opgave, men skal følge en strengt defineret rækkefølge i henhold til teamets specifikke proces.
Fem højdepunkter ved denne opgradering:
- Evals (automatiseret evaluering): Brugeren skal blot beskrive "test prompt + forventet output", og skill-creator kører automatisk validering.
- Benchmark-tilstand: Kører standardiserede tests i batch, output af beståelsesprocent, tidsforbrug, tokenforbrug og andre hårde målinger.
- Flere agenter kører parallelt: Uafhængig ren kontekst, undgår forurening, testhastigheden stiger dramatisk.
- Comparator (blind test sammenligning): A/B test af to færdighedsversioner.
- Description Tuning (optimering af triggerbeskrivelser): Automatisk analyse af prøveprompter, foreslår ændringer i beskrivelser.
02 - Ingen grund til ikke at installere! Denne opdatering genopretter gamle færdigheder
Anthropics opdatering af skill-creator har hurtigt skabt debat blandt AI-agentudviklere og -professionelle.
03 - AI-agentens CI/CD øjeblik: Fra kunstværk til ingeniørprodukt
Anthropics opgradering af skill-creator er i bund og grund at bringe den mest modne "test-benchmark-iteration" cyklus fra softwareudvikling til almindelige brugere og virksomhedsteams med lav adgangsbarriere. Dette betyder, at Agent Skills ikke længere er en engangs prompt-ingeniør, der "bare skrives og kastes væk", men en "levende aktiv", der kan vedligeholdes kontinuerligt, være kompatibel på tværs af modelversioner og optimeres datadrevet.
På kort sigt er de største vindere de udviklere og virksomhedsanvendere, der allerede har opbygget et stort antal tilpassede færdigheder i Claude Code / Cowork.
Set fra et mere makro perspektiv, har denne opdatering yderligere styrket Anthropics "værktøjs kæde forsvarsværk" i Agent økosystemet.

