Agent Skills'ta Büyük Yenilik! Anthropic, Yetenek Fabrikasını Nükleer Seviye Evals Sistemi ile Güncelledi, Geliştiriciler: Eski Yetenekler Yeniden Hayat Buldu

3/9/2026
3 min read

Agent Skills'ta Büyük Yenilik! Anthropic, Yetenek Fabrikasını Nükleer Seviye Evals Sistemi ile Güncelledi, Geliştiriciler: Eski Yetenekler Yeniden Hayat Buldu

ZhiXingXing AI Düzenleme | Editör: XiXi

AI akıllı ajanlar alanında, Agent Skills'i kullandıysanız, kesinlikle Anthropic'in 2025'te yayınladığı bir yetenek sıfır kod oluşturma aracı olan skill-creator'ı biliyorsunuzdur.

Ancak yetenek oluşturulduktan sonra, bu yeteneğin ne kadar yararlı olduğu, yeni modelin hala çalışıp çalışmadığı, doğru bir şekilde çalışıp çalışmadığı ve etkisinin ne olduğu konusunda hiçbir bilgi yoktu...

3 Mart'ta, Anthropic resmi blogunda "Improving skill-creator: Test, measure, and refine Agent Skills" başlıklı önemli bir güncelleme yayınlandı. Bu güncelleme, Claude'un "yetenek fabrikası"nı gerçekten olgunlaştırdı.

"Görünüşte kullanılabilir" olmaktan "test edilebilir, ölçülebilir, yinelemeli" hale geçiş, daha önceki yetenek yazarlarının en büyük acısını, yani "Yaptığım yetenek gerçekten işe yarıyor mu?" sorusunu tamamen çözdü.

01 - Agent Skills'e Göz Atış: Genel Asistanlıktan Profesyonel Ajanlara Kritik Bir Adım

2025 Ekim'inde Anthropic, Agent Skills'i resmi olarak tanıttı; bu, modüler, yeniden kullanılabilir bir "yetenek paketi" sistemidir. Bir klasörde SKILL.md talimatları, betikler, kaynaklar bulunur; Claude gerektiğinde bunları otomatik olarak yükler ve belge oluşturma, veri analizi, marka uyumu gibi senaryoların performansını büyük ölçüde artırır.

Yetenekler, Claude.ai, Claude Code, API tüm platformlarını kapsar ve GitHub deposunu açar (şu anda 80.000'den fazla yıldız almıştır). Ancak erken sürümlerin en büyük sınırlaması, teknik olmayan kullanıcıların sadece hislerine dayanarak yineleme yapabilmesiydi; etkileri nicel olarak doğrulamak mümkün değildi.

Yeteneklerin İki Türü Vardır:

1. Yetenek Artırıcı

Modelin aslında "yapamadığı" veya "istikrarlı yapmadığı" şeyleri, Yetenekler aracılığıyla belirli teknikler ve kalıplar ekleyerek istikrarlı bir şekilde çıkış yapmasını sağlar.

2. Tercih Kodlama

Model her adımı yapabilir, ancak ekiplerin belirli süreçlerine sıkı bir şekilde sıralanması gerekir.

Bu Güncellemenin 5 Büyük Özelliği:

  • Evals (Otomatik Değerlendirme): Kullanıcılar sadece "test ipucu + beklenen çıktı"yı tanımlamak zorundadır; skill-creator otomatik olarak doğrulama çalıştırır.
  • Benchmark Modu: Standart testleri toplu olarak çalıştırır, geçiş oranı, süre, Token tüketimi gibi sert göstergeleri çıktılar.
  • Çoklu Ajan Paralel Uygulama: Bağımsız temiz bağlam, kirlenmeyi önler, test hızını artırır.
  • Comparator (Kör Test Karşılaştırması): İki yetenek versiyonunu A/B testi yapar.
  • Description Tuning (Açıklama Optimizasyonu): Örnek ipuçlarını otomatik olarak analiz eder, açıklama değişiklikleri önerir.

02 - Kurulum İçin Hiçbir Sebep Yok! Bu Güncelleme Eski Yetenekleri Yeniden Hayat Buldu

Anthropic'in skill-creator üzerindeki bu güncellemesi, AI Ajanı çalışanları ve geliştiricileri arasında hızla tartışmalara yol açtı.

03 - AI Akıllı Ajanların CI/CD Anı: Sanat Eserinden Mühendislik Ürününe Dönüşüm

Anthropic'in skill-creator üzerindeki bu güncellemesi, esasen yazılım mühendisliğinde en olgun "test - benchmark - yineleme" kapalı döngüsünü, sıradan kullanıcılar ve kurumsal ekipler için düşük bir eşik ile sunmuştur. Bu, Agent Skills'in artık "tamamlandıktan sonra atılan" tek seferlik bir prompt mühendisliği değil, sürekli bakım yapılabilen, model versiyonları arasında uyumlu ve veri ile optimize edilebilen "canlı varlıklar" haline geldiği anlamına geliyor.

Kısa vadede, en büyük faydayı Claude Code / Cowork'ta büyük miktarda özelleştirilmiş yetenek biriktiren geliştiriciler ve kurumsal kullanıcılar elde edecektir.

Daha geniş bir perspektiften bakıldığında, bu güncelleme, Anthropic'in Agent ekosistemindeki "araç zinciri koruma duvarını" daha da sağlamlaştırmıştır.

Published in Technology

You Might Also Like