Agent Skills jelentős újítás! Az Anthropic frissíti a skill-creator-t, beépítve a nukleáris szintű evals rendszert, fejlesztők: a régi készségek újjáélednek

3/9/2026
3 min read

Agent Skills jelentős újítás! Az Anthropic frissíti a skill-creator-t, beépítve a nukleáris szintű evals rendszert, fejlesztők: a régi készségek újjáélednek

智猩猩AI整理 | 编辑:汐汐

Az AI intelligens ügynökök területén, ha valaki használta az Agent Skills-t, akkor biztosan ismeri a skill-creator-t, amelyet az Anthropic 2025-ben adott ki, és ez egy zero-code eszköz a készségek létrehozásához.

De miután létrehoztuk a készséget, még mindig nem tudjuk, hogy ez a készség hasznos-e, az új modell használható-e, pontosan működik-e, és milyen hatékonysággal...

Március 3-án az Anthropic hivatalos blogján csendben megjelent egy jelentős frissítés, amelynek címe: Improving skill-creator: Test, measure, and refine Agent Skills. Ez a frissítés lehetővé tette, hogy Claude "készséggyára" valóban éretté váljon.

A "látszólag használható" állapotból a "tesztelhető, mérhető, iterálható" állapotba való átmenet teljes mértékben megoldotta a készségkészítők legnagyobb problémáját, nevezetesen: "A készségem valóban jól működik?"

01 - Agent Skills áttekintés: kulcsfontosságú lépés az általános asszisztenstől a szakmai intelligens ügynökig

2025 októberében az Anthropic hivatalosan bemutatta az Agent Skills-t, amely egy moduláris, újrahasználható "készségcsomag" rendszert jelent. Egy mappa tartalmazza a SKILL.md utasításokat, szkripteket, forrásokat, amelyeket Claude automatikusan betölt, amikor szükséges, jelentősen javítva a dokumentumgenerálás, adat-elemzés, márka megfelelés és egyéb szcenáriók teljesítményét.

A Skills már lefedi a Claude.ai, Claude Code, API teljes platformját, és nyitott GitHub tárolót (jelenleg több mint 80 ezer csillaggal). Azonban a korai verziók legnagyobb korlátja az volt, hogy a nem technikai felhasználók csak érzés alapján tudtak iterálni, nem tudták kvantifikálni az eredményeket.

A Skills két típusa:

1. Képességfejlesztő

A modell eredetileg "nem tudta" vagy "nem stabilan tudta" megtenni a dolgokat, a Skills segítségével specifikus trükköket, mintákat injektálva stabilizálja a kimenetet.

2. Preferencia kódoló

A modell minden lépést meg tud tenni, de a csapat specifikus folyamata szerint szigorúan kell sorrendbe állítani.

Az új frissítés 5 fő jellemzője:

  • Evals (automatikus értékelés): A felhasználóknak csak annyit kell leírniuk, hogy "tesztelő prompt + elvárt kimenet", a skill-creator automatikusan futtatja az ellenőrzést.
  • Benchmark mód: standardizált teszteket futtat, kimeneti arányt, időtartamot, Token fogyasztást és egyéb kemény mutatókat ad vissza.
  • Több ügynök párhuzamos végrehajtása: független, tiszta kontextus, elkerülve a szennyeződést, a tesztelési sebesség drámaian megnő.
  • Comparator (vak teszt összehasonlítás): A/B teszt két készségverzióval.
  • Description Tuning (trigger leírás optimalizálás): automatikusan elemzi a minta promptokat, javasolja a leírás módosítását.

02 - Nincs ok a telepítés elhalasztására! Ez a frissítés a régi készségeket újjáéleszti

Az Anthropic skill-creator-ra vonatkozó frissítése gyorsan heves vitát váltott ki az AI ügynökök szakemberei és fejlesztői között.

03 - Az AI intelligens ügynökök CI/CD pillanata: műalkotásból mérnöki termékké vált

Az Anthropic skill-creator-ra vonatkozó frissítése lényegében a szoftverfejlesztés legérettebb "teszt-értékelés-iteráció" zárt hurkát alacsony belépési küszöbbel hozta el a hétköznapi felhasználók és vállalati csapatok számára. Ez azt jelenti, hogy az Agent Skills már nem egy "megírom és eldobom" egyszeri prompt projekt, hanem folyamatosan karbantartható, több modellverzióval kompatibilis, adatalapú optimalizálásra alkalmas "élő eszköz".

Rövid távon a legnagyobb nyertesei azok a fejlesztők és vállalati felhasználók, akik már rengeteg testreszabott készséget halmoztak fel a Claude Code / Cowork platformon.

Egy szélesebb perspektívából nézve ez a frissítés tovább erősítette az Anthropic "eszközkészlet védelmi vonalát" az ügynöki ökoszisztémában.

Published in Technology

You Might Also Like