Agent Skills stor innovasjon! Anthropic oppgraderer ferdighetsfabrikken med et kjernefysisk evalueringssystem, utviklere: gamle ferdigheter gjenoppstår

3/9/2026
3 min read

Agent Skills stor innovasjon! Anthropic oppgraderer ferdighetsfabrikken med et kjernefysisk evalueringssystem, utviklere: gamle ferdigheter gjenoppstår

智猩猩AI整理 | 编辑:汐汐

I AI-agentfeltet, hvis du har brukt Agent Skills, så kjenner du sikkert til skill-creator, et null-kode byggverktøy for ferdigheter utgitt av Anthropic i 2025.

Men etter at ferdigheten er bygget, er det fortsatt umulig å vite om denne ferdigheten er nyttig, om den nye modellen fortsatt fungerer, om den kjører nøyaktig, og hvordan resultatene er...

Den 3. mars publiserte Anthropic sin offisielle blogg stille en betydelig oppdatering kalt Improving skill-creator: Test, measure, and refine Agent Skills. Denne oppgraderingen har gjort Claudes "ferdighetsfabrikk" virkelig moden.

Fra "ser ut til å fungere" til "kan testes, måles, og itereres", har det fullstendig løst det største smertepunktene for ferdighetsforfattere, nemlig "er ferdighetene jeg har laget egentlig nyttige?"

01 - Tilbakeblikk på Agent Skills: Et nøkkelsteg fra generell assistent til spesialisert agent

I oktober 2025 lanserte Anthropic offisielt Agent Skills, et modulært, gjenbrukbart "ferdighetspakke" system. En mappe inneholder SKILL.md instruksjoner, skript, ressurser, og Claude laster dem automatisk når det er nødvendig, noe som betydelig forbedrer dokumentgenerering, dataanalyse, merkevareoverholdelse og andre scenarier.

Ferdigheter har dekket Claude.ai, Claude Code, API-plattformen, og åpnet et GitHub-repositorium (for tiden over 80 000 stjerner). Men den største begrensningen i tidlige versjoner var at ikke-tekniske brukere kun kunne iterere basert på følelser, uten mulighet for å kvantifisere effekten.

Ferdigheter har to typer:

1. Kapasitetsforbedrende

Modellen kunne opprinnelig "ikke gjøre" eller "gjøre det ustabilt", men ved å injisere spesifikke teknikker og mønstre gjennom Ferdigheter stabiliseres utdataene.

2. Preferanse-koding

Modellen kan gjøre hvert steg, men må følge teamets spesifikke prosess i strengt rekkefølge.

Fem høydepunkter fra denne oppgraderingen:

  • Evals (automatisert vurdering): Brukeren trenger bare å beskrive "testprompt + forventet utdata", og skill-creator kjører automatisk validering.
  • Benchmark-modus: Kjør standardiserte tester i batch, og gi ut passasjonsrate, tidsforbruk, Token-forbruk og andre harde indikatorer.
  • Flere agenter som kjører parallelt: Uavhengig ren kontekst, unngå forurensning, testhastigheten øker dramatisk.
  • Comparator (blind sammenligning): A/B-testing av to ferdighetsversjoner.
  • Description Tuning (optimalisering av utløserbeskrivelse): Automatisk analyse av prøveprompt, foreslår endringer i beskrivelsen.

02 - Ingen grunn til ikke å installere! Denne oppdateringen gir gamle ferdigheter nytt liv

Anthropics oppdatering av skill-creator har raskt utløst debatt blant AI-agentutviklere og -brukere.

03 - AI-agentens CI/CD-øyeblikk: Fra kunstverk til ingeniørprodukt

Anthropics oppgradering av skill-creator er i essens å ta den mest modne "test-benchmark-iterasjon"-sløyfen fra programvareutvikling og gjøre den tilgjengelig for vanlige brukere og bedriftsgrupper med lav terskel. Dette betyr at Agent Skills ikke lenger er en engangs prompt-ingeniør som "skriver og kaster", men en "levende eiendel" som kan vedlikeholdes kontinuerlig, være kompatibel på tvers av modellversjoner, og optimaliseres datadrevet.

På kort sikt er de største vinnerne utviklere og bedriftsbrukere som allerede har akkumulert mange tilpassede ferdigheter i Claude Code / Cowork.

Sett fra et mer makro perspektiv, har denne oppdateringen ytterligere styrket Anthropics "verktøykjede-grøft" i Agent-økosystemet.

Published in Technology

You Might Also Like