Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

3/9/2026
3 min read

Agent Skills重大革新!Anthropic升级技能工厂塞进核弹级evals系统,开发者:旧技能起死回生

智猩猩AI整理 | 编辑:汐汐

Im Bereich der KI-Agenten, wenn Sie Agent Skills verwendet haben, werden Sie sicherlich den skill-creator kennen, ein von Anthropic im Jahr 2025 veröffentlichtes No-Code-Tool zur Erstellung von Skills.

Nachdem ein Skill erstellt wurde, bleibt jedoch unklar, ob dieser Skill nützlich ist, ob das neue Modell noch funktioniert, ob es genau läuft und wie die Ergebnisse aussehen...

Am 3. März veröffentlichte der offizielle Blog von Anthropic still und heimlich ein bedeutendes Update mit dem Titel "Improving skill-creator: Test, measure, and refine Agent Skills". Dieses Upgrade hat die "Skill-Fabrik" von Claude wirklich zur Reife gebracht.

Von "sieht brauchbar aus" zu "testbar, messbar, iterierbar" wurde das größte Schmerzproblem der Skill-Autoren gelöst, nämlich "Wie gut ist der Skill, den ich erstellt habe?"

01 - Rückblick auf Agent Skills: Ein entscheidender Schritt vom allgemeinen Assistenten zum spezialisierten Agenten

Im Oktober 2025 führte Anthropic offiziell Agent Skills ein, ein modulares, wiederverwendbares "Skill-Paket"-System. Ein Ordner enthält SKILL.md-Anweisungen, Skripte und Ressourcen, die Claude bei Bedarf automatisch lädt und die Leistung in Szenarien wie Dokumentenerstellung, Datenanalyse und Markencompliance erheblich verbessert.

Skills sind auf der gesamten Plattform von Claude.ai, Claude Code und API verfügbar und haben ein GitHub-Repository eröffnet (derzeit über 80.000 Sterne). Die größte Einschränkung der frühen Version war jedoch, dass nicht-technische Benutzer nur nach Gefühl iterieren konnten, ohne die Ergebnisse quantifizieren zu können.

Es gibt zwei Arten von Skills:

1. Fähigkeitsverbesserung

Aufgaben, die das Modell ursprünglich "nicht konnte" oder "nicht stabil" erledigen konnte, werden durch Skills stabilisiert, indem spezifische Techniken und Muster eingeführt werden.

2. Präferenzkodierung

Das Modell kann jeden Schritt ausführen, muss jedoch strikt nach den spezifischen Prozessen des Teams sortiert werden.

Die 5 Highlights dieses Upgrades:

  • Evals (automatisierte Bewertung): Benutzer müssen nur "Test-Prompt + erwartetes Ausgabeformat" beschreiben, skill-creator führt automatisch die Validierung durch.
  • Benchmark-Modus: Durchführung standardisierter Tests in großen Mengen, Ausgabe von Durchfallquoten, Zeitaufwand, Token-Verbrauch und anderen harten Kennzahlen.
  • Parallele Ausführung mehrerer Agenten: Unabhängiger, sauberer Kontext, um Kontamination zu vermeiden, die Testgeschwindigkeit steigt erheblich.
  • Comparator (Blindtestvergleich): A/B-Test zweier Skill-Versionen.
  • Description Tuning (Optimierung der Auslöserbeschreibung): Automatische Analyse von Beispiel-Prompts, Vorschläge zur Änderung der Beschreibung.

02 - Es gibt keinen Grund, es nicht zu installieren! Dieses Update bringt alte Skills zurück ins Leben

Das Update von Anthropic für den skill-creator hat schnell Diskussionen unter AI-Agenten-Profis und Entwicklern ausgelöst.

03 - Der CI/CD-Moment von KI-Agenten: Von Kunstwerken zu Ingenieurprodukten

Das Upgrade von Anthropic für den skill-creator bringt im Wesentlichen den ausgereiftesten "Test-Benchmark-Iterate"-Zyklus der Softwaretechnik zu normalen Benutzern und Unternehmensgruppen mit niedrigen Eintrittsbarrieren. Das bedeutet, dass Agent Skills nicht mehr "einmalige Prompt-Projekte" sind, die nach dem Schreiben weggeworfen werden, sondern "lebende Vermögenswerte", die kontinuierlich gewartet, modellübergreifend kompatibel und datengestützt optimiert werden können.

Kurzfristig sind die größten Nutznießer Entwickler und Unternehmensbenutzer, die bereits eine große Anzahl von benutzerdefinierten Skills in Claude Code / Cowork angesammelt haben.

Aus einer breiteren Perspektive festigt dieses Update weiter die "Toolchain-Wettbewerbsfähigkeit" von Anthropic im Agenten-Ökosystem.

Published in Technology

You Might Also Like