এজেন্ট স্কিলসের重大革新!Anthropic স্কিল ফ্যাক্টরিকে নিউক্লিয়ার লেভেলের evals সিস্টেমে আপগ্রেড করেছে, ডেভেলপার: পুরনো স্কিলকে পুনর্জীবিত করা

3/9/2026
1 min read

এজেন্ট স্কিলসের重大革新!Anthropic স্কিল ফ্যাক্টরিকে নিউক্লিয়ার লেভেলের evals সিস্টেমে আপগ্রেড করেছে, ডেভেলপার: পুরনো স্কিলকে পুনর্জীবিত করা

智猩猩AI整理 | 编辑:汐汐

AI智能体领域中,如果使用过Agent Skills,那么肯定会了解skill-creator,这个由Anthropic于2025年发布的一个skills零代码构建工具。

但是构建好skill后,仍然无从知晓这个skill是否有用、新模型还能用吗、运行准确吗、效果怎么样...

就在3月3日,Anthropic官方博客悄然发布了一篇重磅更新,叫做Improving skill-creator: Test, measure, and refine Agent Skills。这一升级让 Claude 的"技能工厂"真正走向成熟。

从"看起来能用"到"可测试、可衡量、可迭代",彻底解决了此前技能作者最大的痛点,也就是"我做的技能到底好不好用?"

01 - এজেন্ট স্কিলসের পুনরালোচনা: সাধারণ সহায়ক থেকে পেশাদার বুদ্ধিমত্তার দিকে একটি গুরুত্বপূর্ণ পদক্ষেপ

2025年10月 Anthropic 正式推出 Agent Skills,这是一种模块化、可复用的"技能包"系统。一个文件夹里包含 SKILL.md 指令、脚本、资源,Claude在需要时自动加载,大幅提升文档生成、数据分析、品牌合规等场景表现。

Skills 已覆盖Claude.ai、Claude Code、API全平台,并开放GitHub仓库(目前星标超 8 万)。但早期版本的最大局限是,非技术用户只能凭感觉迭代,无法量化验证效果。

Skills有两种类型:

1. 能力提升型

模型原本"做不到"或"做不稳定"的事,通过 Skills 注入特定技巧、模式来稳定输出。

2. 偏好编码型

模型每一步都能做,但需要按团队特定流程严格排序。

此次升级的5大亮点:

  • Evals(自动化评估):用户只需描述"测试提示词 + 期望输出样子"skill-creator 自动运行验证。
  • Benchmark 模式:批量跑标准化测试,输出通过率、耗时、Token 消耗等硬指标。
  • 多代理并行执行:独立干净上下文,避免污染,测试速度暴增。
  • Comparator(盲测对比):A/B 测试两个技能版本。
  • Description Tuning(触发描述优化):自动分析样本提示,建议修改描述。

02 -没有理由不安装!这次更新让旧技能起死回生

Anthropic对skill-creator的这次更新,迅速引发AI Agent从业者和开发者热议。

03 - AI 智能体的CI/CD时刻:从艺术品变成了工程产品

Anthropic 此次对 skill-creator 的升级,本质上是把软件工程中最成熟的那一套"测试-基准-迭代"闭环,低门槛地带给了普通用户和企业团队。这意味着 Agent Skills 不再是"写完就扔"的一次性 prompt 工程,而是可以持续维护、跨模型版本兼容、可数据化优化的"活资产"。

短期来看,最大受益者是已经在 Claude Code / Cowork 里积累了大量自定义技能的开发者与企业用户。

而放眼更宏观的视角,这次更新进一步夯实了 Anthropic 在 Agent 生态中的"工具链护城河"。

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy পরিবর্তন নির্দেশিকা: কিভাবে ফ্ল্যাশ লিজেন্ডারি পেট পেতে হয়

Claude Code Buddy পরিবর্তন নির্দেশিকা: কিভাবে ফ্ল্যাশ লিজেন্ডারি পেট পেতে হয় 2026 সালের ১ এপ্রিল, Anthropic Claude Code...

Obsidian Defuddle চালু করেছে, Obsidian Web Clipper কে একটি নতুন উচ্চতায় নিয়ে গেছেTechnology

Obsidian Defuddle চালু করেছে, Obsidian Web Clipper কে একটি নতুন উচ্চতায় নিয়ে গেছে

Obsidian Defuddle চালু করেছে, Obsidian Web Clipper কে একটি নতুন উচ্চতায় নিয়ে গেছে আমি সবসময় Obsidian এর মূল ধারণা পছ...

OpenAI হঠাৎ ঘোষণা করেছে "তিন-এক": ব্রাউজার + প্রোগ্রামিং + ChatGPT একত্রিত, অভ্যন্তরীণভাবে স্বীকার করেছে গত এক বছরে ভুল পথে গিয়েছিলTechnology

OpenAI হঠাৎ ঘোষণা করেছে "তিন-এক": ব্রাউজার + প্রোগ্রামিং + ChatGPT একত্রিত, অভ্যন্তরীণভাবে স্বীকার করেছে গত এক বছরে ভুল পথে গিয়েছিল

OpenAI হঠাৎ ঘোষণা করেছে "তিন-এক": ব্রাউজার + প্রোগ্রামিং + ChatGPT একত্রিত, অভ্যন্তরীণভাবে স্বীকার করেছে গত এক বছরে ভুল ...

2026, নিজেকে 'শৃঙ্খলা' করতে আর চাপ দেবেন না! এই 8টি ছোট কাজ করুন, স্বাস্থ্য স্বাভাবিকভাবেই আসবেHealth

2026, নিজেকে 'শৃঙ্খলা' করতে আর চাপ দেবেন না! এই 8টি ছোট কাজ করুন, স্বাস্থ্য স্বাভাবিকভাবেই আসবে

2026, নিজেকে 'শৃঙ্খলা' করতে আর চাপ দেবেন না! এই 8টি ছোট কাজ করুন, স্বাস্থ্য স্বাভাবিকভাবেই আসবে নতুন বছরের শুরু, গত বছর...

যে সব মায়েরা কঠোর পরিশ্রম করেও ওজন কমাতে পারছেন না, তারা এখানে পড়ে যাচ্ছেনHealth

যে সব মায়েরা কঠোর পরিশ্রম করেও ওজন কমাতে পারছেন না, তারা এখানে পড়ে যাচ্ছেন

যে সব মায়েরা কঠোর পরিশ্রম করেও ওজন কমাতে পারছেন না, তারা এখানে পড়ে যাচ্ছেন মার্চ মাসের অর্ধেক পেরিয়ে গেছে, আপনার ওজন...

📝
Technology

AI Browser 24 ঘণ্টা স্থিতিশীল চলাচলের নির্দেশিকা

AI Browser 24 ঘণ্টা স্থিতিশীল চলাচলের নির্দেশিকা এই টিউটোরিয়ালটি একটি স্থিতিশীল, দীর্ঘমেয়াদী AI ব্রাউজার পরিবেশ কিভাবে...