Agent Skills stora innovation! Anthropic uppgraderar skill factory med kärnvapen-nivå evals system, utvecklare: gamla färdigheter återuppstår

3/9/2026
3 min read

Agent Skills stora innovation! Anthropic uppgraderar skill factory med kärnvapen-nivå evals system, utvecklare: gamla färdigheter återuppstår

智猩猩AI整理 | 编辑:汐汐

Inom AI-agentfältet, om du har använt Agent Skills, så känner du säkert till skill-creator, ett verktyg för att bygga skills utan kod som släpptes av Anthropic 2025.

Men efter att ha byggt en skill, är det fortfarande oklart om denna skill är användbar, om den nya modellen fortfarande fungerar, om den körs korrekt, och hur effektiv den är...

Den 3 mars publicerade Anthropic officiella blogg tyst en tung uppdatering, kallad Improving skill-creator: Test, measure, and refine Agent Skills. Denna uppgradering har verkligen gjort Claudes "skill factory" mogen.

Från "ser ut att fungera" till "kan testas, mätas, och itereras", har det helt löst det största problemet för tidigare skill-skapare, nämligen "är de skills jag har gjort verkligen användbara?"

01 - Agent Skills översikt: ett nyckelsteg från allmän assistent till professionell agent

I oktober 2025 lanserade Anthropic officiellt Agent Skills, ett modulärt och återanvändbart "skill package" system. En mapp innehåller SKILL.md instruktioner, skript, resurser, och Claude laddar automatiskt dessa vid behov, vilket avsevärt förbättrar dokumentgenerering, dataanalys, varumärkesöverensstämmelse och andra scenarier.

Skills har täckt hela plattformen Claude.ai, Claude Code, API, och har öppnat ett GitHub-repo (för närvarande över 80 000 stjärnor). Men den största begränsningen i tidiga versioner var att icke-tekniska användare endast kunde iterera baserat på känsla, utan att kunna kvantifiera effekten.

Skills finns i två typer:

1. Förbättringsmodell

Modellen kan från början "inte göra" eller "göra instabilt" saker, men genom Skills injiceras specifika tekniker och mönster för att stabilisera utdata.

2. Preferenskodning

Modellen kan göra varje steg, men behöver strikt ordnas enligt teamets specifika process.

Fem höjdpunkter i denna uppgradering:

  • Evals (automatiserad utvärdering): Användare behöver bara beskriva "testprompt + förväntad utdata" så kör skill-creator automatiskt verifieringen.
  • Benchmark-läge: Kör standardiserade tester i batch, ger utdata som godkännandefrekvens, tidsåtgång, Token-förbrukning och andra hårda indikatorer.
  • Flera agenter kör parallellt: oberoende rena kontexter, undviker förorening, testhastigheten ökar dramatiskt.
  • Comparator (blindtestjämförelse): A/B-test av två skill-versioner.
  • Description Tuning (utlösningsbeskrivningsoptimering): automatiskt analysera provpromptar och föreslå ändringar av beskrivningen.

02 - Ingen anledning att inte installera! Denna uppdatering återuppväcker gamla skills

Anthropics uppdatering av skill-creator har snabbt väckt diskussion bland AI-agentarbetare och utvecklare.

03 - AI-agentens CI/CD-ögonblick: från konstverk till ingenjörsprodukt

Anthropics uppgradering av skill-creator är i grunden att ta den mest mogna "test-benchmark-iterera" cykeln från mjukvaruingenjör och göra den tillgänglig för vanliga användare och företagsgrupper. Detta innebär att Agent Skills inte längre är en engångs prompt-ingenjör som "skriver och slänger", utan en "levande tillgång" som kan underhållas kontinuerligt, vara kompatibel över modellversioner och optimeras med data.

På kort sikt är de största vinnarna de utvecklare och företagsanvändare som redan har samlat en stor mängd anpassade skills i Claude Code / Cowork.

Sett ur ett mer makro perspektiv, har denna uppdatering ytterligare stärkt Anthropics "verktygskedje-mur" inom Agent-ekosystemet.

Published in Technology

You Might Also Like