Inovasi Besar dalam Keterampilan Agen! Anthropic Meningkatkan Pabrik Keterampilan dengan Sistem evals Setara Bom Nuklir, Pengembang: Keterampilan Lama Hidup Kembali
Inovasi Besar dalam Keterampilan Agen! Anthropic Meningkatkan Pabrik Keterampilan dengan Sistem evals Setara Bom Nuklir, Pengembang: Keterampilan Lama Hidup Kembali
Pengelolaan AI Cerdas | Editor: Xi Xi
Dalam bidang agen AI, jika Anda pernah menggunakan Keterampilan Agen, Anda pasti akan mengenal pembuat keterampilan (skill-creator), sebuah alat pembangunan keterampilan tanpa kode yang dirilis oleh Anthropic pada tahun 2025.
Namun setelah membangun keterampilan, masih sulit untuk mengetahui apakah keterampilan tersebut berguna, apakah model baru masih dapat digunakan, apakah berjalan dengan akurat, dan bagaimana hasilnya...
Pada tanggal 3 Maret, blog resmi Anthropic secara diam-diam merilis pembaruan besar, yang disebut Meningkatkan pembuat keterampilan: Uji, ukur, dan perbaiki Keterampilan Agen. Pembaruan ini membuat "pabrik keterampilan" Claude benar-benar menuju kematangan.
Dari "tampaknya dapat digunakan" menjadi "dapat diuji, dapat diukur, dapat diiterasi", secara menyeluruh menyelesaikan titik sakit terbesar bagi penulis keterampilan sebelumnya, yaitu "apakah keterampilan yang saya buat benar-benar berguna?"
01 - Tinjauan Keterampilan Agen: Langkah Kunci dari Asisten Umum ke Agen Profesional
Pada bulan Oktober 2025, Anthropic secara resmi meluncurkan Keterampilan Agen, sebuah sistem "paket keterampilan" yang modular dan dapat digunakan kembali. Sebuah folder berisi instruksi SKILL.md, skrip, dan sumber daya, Claude secara otomatis memuatnya saat diperlukan, secara signifikan meningkatkan kinerja dalam menghasilkan dokumen, analisis data, kepatuhan merek, dan skenario lainnya.
Keterampilan telah mencakup seluruh platform Claude.ai, Claude Code, API, dan membuka repositori GitHub (saat ini lebih dari 80 ribu bintang). Namun, batasan terbesar dari versi awal adalah, pengguna non-teknis hanya dapat mengiterasi berdasarkan perasaan, tanpa dapat mengukur efektivitasnya.
Keterampilan memiliki dua jenis:
1. Peningkatan Kemampuan
Hal-hal yang awalnya "tidak dapat dilakukan" atau "tidak stabil" oleh model, dapat distabilkan dengan menyuntikkan keterampilan atau pola tertentu melalui Keterampilan.
2. Kode Preferensi
Model dapat melakukan setiap langkah, tetapi perlu diurutkan secara ketat sesuai dengan proses tertentu tim.
Lima Sorotan dari Pembaruan Ini:
- Evals (penilaian otomatis): Pengguna hanya perlu mendeskripsikan "kata kunci pengujian + bentuk output yang diharapkan" dan pembuat keterampilan secara otomatis menjalankan verifikasi.
- Mode Benchmark: Menjalankan pengujian standar secara massal, menghasilkan tingkat kelulusan, waktu yang dibutuhkan, konsumsi Token, dan indikator keras lainnya.
- Eksekusi Paralel Multi-Agen: Konteks yang bersih dan independen, menghindari kontaminasi, kecepatan pengujian meningkat pesat.
- Comparator (perbandingan buta): Uji A/B dua versi keterampilan.
- Description Tuning (optimasi deskripsi pemicu): Menganalisis sampel petunjuk secara otomatis, menyarankan modifikasi deskripsi.
02 - Tidak Ada Alasan untuk Tidak Menginstal! Pembaruan Ini Menghidupkan Kembali Keterampilan Lama
Pembaruan Anthropic terhadap pembuat keterampilan ini dengan cepat memicu perbincangan hangat di kalangan praktisi dan pengembang Agen AI.
03 - Momen CI/CD untuk Agen AI: Dari Karya Seni Menjadi Produk Rekayasa
Pembaruan Anthropic terhadap pembuat keterampilan ini pada dasarnya membawa siklus "uji - benchmark - iterasi" yang paling matang dalam rekayasa perangkat lunak kepada pengguna biasa dan tim perusahaan dengan ambang batas yang rendah. Ini berarti Keterampilan Agen tidak lagi menjadi proyek prompt sekali pakai yang "ditulis dan dibuang", tetapi dapat dipelihara secara berkelanjutan, kompatibel lintas versi model, dan dioptimalkan secara data.
Dalam jangka pendek, penerima manfaat terbesar adalah pengembang dan pengguna perusahaan yang telah mengumpulkan banyak keterampilan kustom di Claude Code / Cowork.
Dari perspektif yang lebih makro, pembaruan ini semakin memperkuat "moat rantai alat" Anthropic dalam ekosistem Agen.

