ทักษะของเอเจนต์การเปลี่ยนแปลงครั้งใหญ่! Anthropic อัปเกรดโรงงานทักษะใส่ระบบ evals ระดับนิวเคลียร์ นักพัฒนา: ทักษะเก่าฟื้นคืนชีพ

智猩猩AI整理 | 编辑：汐汐

ในด้านเอเจนต์ AI หากคุณเคยใช้ทักษะของเอเจนต์ คุณจะต้องรู้จัก skill-creator ซึ่งเป็นเครื่องมือสร้างทักษะแบบไม่มีโค้ดที่ Anthropic เปิดตัวในปี 2025

แต่หลังจากสร้างทักษะแล้ว ยังไม่มีวิธีรู้ว่าทักษะนี้มีประโยชน์หรือไม่ โมเดลใหม่ยังใช้ได้อยู่ไหม ทำงานได้แม่นยำหรือเปล่า ผลลัพธ์เป็นอย่างไร...

เมื่อวันที่ 3 มีนาคม บล็อกทางการของ Anthropic ได้เผยแพร่การอัปเดตครั้งใหญ่ที่ชื่อว่า Improving skill-creator: Test, measure, and refine Agent Skills การอัปเกรดนี้ทำให้ "โรงงานทักษะ" ของ Claude เติบโตอย่างแท้จริง

จาก "ดูเหมือนจะใช้ได้" เป็น "สามารถทดสอบ วัดผล และปรับปรุงได้" แก้ปัญหาที่ใหญ่ที่สุดของผู้สร้างทักษะก่อนหน้านี้ นั่นคือ "ทักษะที่ฉันทำขึ้นนั้นใช้งานได้ดีหรือไม่?"

01 - ทบทวนทักษะของเอเจนต์: ก้าวสำคัญจากผู้ช่วยทั่วไปสู่เอเจนต์เฉพาะทาง

ในเดือนตุลาคม 2025 Anthropic ได้เปิดตัวทักษะของเอเจนต์อย่างเป็นทางการ ซึ่งเป็นระบบ "แพ็คเกจทักษะ" ที่เป็นโมดูลาร์และสามารถนำกลับมาใช้ใหม่ได้ โฟลเดอร์หนึ่งจะประกอบด้วยคำสั่ง SKILL.md สคริปต์ และทรัพยากร Claude จะโหลดโดยอัตโนมัติเมื่อจำเป็น ทำให้การสร้างเอกสาร การวิเคราะห์ข้อมูล และการปฏิบัติตามแบรนด์มีประสิทธิภาพมากขึ้น

ทักษะได้ครอบคลุม Claude.ai, Claude Code, API ทั้งหมด และเปิด GitHub repository (ปัจจุบันมีดาวมากกว่า 80,000 ดวง) แต่ข้อจำกัดที่ใหญ่ที่สุดของเวอร์ชันแรกคือผู้ใช้ที่ไม่ใช่เทคนิคสามารถปรับปรุงได้เพียงตามความรู้สึก ไม่สามารถวัดผลได้

ทักษะมีสองประเภท:

1. ประเภทการเพิ่มประสิทธิภาพ

สิ่งที่โมเดล "ทำไม่ได้" หรือ "ทำไม่เสถียร" จะถูกเสริมด้วยทักษะเฉพาะ เทคนิค และรูปแบบเพื่อให้ผลลัพธ์มีเสถียรภาพ

2. ประเภทการเข้ารหัสความชอบ

โมเดลสามารถทำได้ในทุกขั้นตอน แต่ต้องเรียงลำดับตามกระบวนการเฉพาะของทีมอย่างเคร่งครัด

5 จุดเด่นของการอัปเกรดครั้งนี้:

Evals (การประเมินอัตโนมัติ): ผู้ใช้เพียงแค่ต้องอธิบาย "คำแนะนำการทดสอบ + รูปแบบผลลัพธ์ที่คาดหวัง" skill-creator จะทำการตรวจสอบโดยอัตโนมัติ
Benchmark mode: รันการทดสอบมาตรฐานแบบกลุ่ม ผลลัพธ์อัตราผ่าน เวลาใช้ และการใช้ Token เป็นต้น
การดำเนินการแบบขนานหลายเอเจนต์: บริบทที่สะอาดและแยกจากกันเพื่อหลีกเลี่ยงการปนเปื้อน ความเร็วในการทดสอบเพิ่มขึ้นอย่างมาก
Comparator (การเปรียบเทียบแบบตาบอด): การทดสอบ A/B สองเวอร์ชันของทักษะ
Description Tuning (การปรับแต่งคำอธิบาย): วิเคราะห์ตัวอย่างคำแนะนำโดยอัตโนมัติและแนะนำการแก้ไขคำอธิบาย

02 - ไม่มีเหตุผลที่จะไม่ติดตั้ง! การอัปเดตครั้งนี้ทำให้ทักษะเก่าฟื้นคืนชีพ

การอัปเดตของ Anthropic ต่อ skill-creator นี้ได้กระตุ้นให้เกิดการพูดคุยกันอย่างร้อนแรงในหมู่ผู้ประกอบการและนักพัฒนา AI

03 - ช่วงเวลา CI/CD ของเอเจนต์ AI: จากงานศิลปะกลายเป็นผลิตภัณฑ์ทางวิศวกรรม

การอัปเกรด skill-creator ของ Anthropic ในครั้งนี้ เป็นการนำชุด "การทดสอบ-การวัดผล-การปรับปรุง" ที่มีความเป็นผู้ใหญ่ที่สุดในวิศวกรรมซอฟต์แวร์ มาสู่ผู้ใช้ทั่วไปและทีมงานองค์กรในระดับที่เข้าถึงได้ นี่หมายความว่าทักษะของเอเจนต์ไม่ใช่ "เขียนเสร็จแล้วทิ้ง" เป็นโปรแกรม prompt แบบครั้งเดียว แต่เป็น "สินทรัพย์ที่มีชีวิต" ที่สามารถบำรุงรักษาได้อย่างต่อเนื่อง เข้ากันได้ข้ามเวอร์ชันของโมเดล และสามารถปรับปรุงได้ด้วยข้อมูล

ในระยะสั้น ผู้ที่ได้รับประโยชน์สูงสุดคือผู้พัฒนาและผู้ใช้ธุรกิจที่ได้สะสมทักษะที่กำหนดเองจำนวนมากใน Claude Code / Cowork

และมองในมุมมองที่กว้างขึ้น การอัปเดตครั้งนี้ได้เสริมสร้าง "โซ่เครื่องมือ" ของ Anthropic ในระบบนิเวศของเอเจนต์อย่างต่อเนื่อง.