에이전트 기술의 중대한 혁신! 앤트로픽, 스킬 공장을 핵폭탄급 evals 시스템으로 업그레이드, 개발자: 구 기술이 되살아나다

3/9/2026
3 min read

에이전트 기술의 중대한 혁신! 앤트로픽, 스킬 공장을 핵폭탄급 evals 시스템으로 업그레이드, 개발자: 구 기술이 되살아나다

지능형 AI 정리 | 편집: 시시

AI 지능체 분야에서 Agent Skills를 사용해본 적이 있다면, Anthropic이 2025년에 발표한 스킬 제로 코드 구축 도구인 skill-creator를 분명히 알고 있을 것입니다.

하지만 스킬을 구축한 후에도, 이 스킬이 유용한지, 새로운 모델이 여전히 작동하는지, 정확하게 실행되는지, 효과가 어떤지 알 수 없습니다...

3월 3일, Anthropic 공식 블로그는 "Improving skill-creator: Test, measure, and refine Agent Skills"라는 제목의 중대한 업데이트를 조용히 발표했습니다. 이 업그레이드는 Claude의 "스킬 공장"이 진정으로 성숙해지는 계기가 되었습니다.

"사용할 수 있을 것 같아 보이는 것"에서 "테스트 가능하고, 측정 가능하며, 반복 가능한 것"으로, 이전에 스킬 저자들이 가장 큰 고통을 겪었던 "내가 만든 스킬이 과연 잘 작동하는가?"라는 문제를 완전히 해결했습니다.

01 - 에이전트 기술 회고: 범용 도우미에서 전문 지능체로의 중요한 단계

2025년 10월, Anthropic은 에이전트 기술을 공식 출시했습니다. 이는 모듈화되고 재사용 가능한 "스킬 패키지" 시스템입니다. 하나의 폴더에는 SKILL.md 지침, 스크립트, 리소스가 포함되어 있으며, Claude는 필요할 때 자동으로 로드하여 문서 생성, 데이터 분석, 브랜드 준수 등의 장면에서 성능을 크게 향상시킵니다.

Skills는 Claude.ai, Claude Code, API 전 플랫폼을 커버하며, GitHub 저장소를 개방했습니다(현재 별표 8만 개 이상). 그러나 초기 버전의 가장 큰 한계는 비기술 사용자가 감에 의존하여 반복할 수밖에 없고, 효과를 정량적으로 검증할 수 없다는 점이었습니다.

Skills에는 두 가지 유형이 있습니다:

1. 능력 향상형

모델이 원래 "할 수 없었던" 또는 "불안정하게 할 수 있었던" 작업을 Skills를 통해 특정 기술이나 패턴을 주입하여 안정적으로 출력합니다.

2. 선호 인코딩형

모델이 모든 단계를 수행할 수 있지만, 팀의 특정 프로세스에 따라 엄격하게 순서를 정해야 합니다.

이번 업그레이드의 5대 하이라이트:

  • Evals(자동화 평가): 사용자는 "테스트 프롬프트 + 기대 출력 형태"를 설명하기만 하면 skill-creator가 자동으로 검증을 실행합니다.
  • Benchmark 모드: 표준화된 테스트를 대량으로 실행하여 통과율, 소요 시간, Token 소비 등 하드 지표를 출력합니다.
  • 다중 에이전트 병렬 실행: 독립적이고 깨끗한 컨텍스트를 유지하여 오염을 방지하고, 테스트 속도를 급증시킵니다.
  • Comparator(블라인드 테스트 비교): A/B 테스트를 통해 두 개의 스킬 버전을 비교합니다.
  • Description Tuning(트리거 설명 최적화): 샘플 프롬프트를 자동 분석하여 설명 수정을 제안합니다.

02 - 설치하지 않을 이유가 없다! 이번 업데이트로 구 기술이 되살아나다

Anthropic의 skill-creator에 대한 이번 업데이트는 AI 에이전트 종사자와 개발자들 사이에서 빠르게 화제가 되었습니다.

03 - AI 지능체의 CI/CD 순간: 예술품에서 엔지니어링 제품으로 변모하다

Anthropic의 skill-creator 업그레이드는 본질적으로 소프트웨어 공학에서 가장 성숙한 "테스트-벤치마크-반복" 폐쇄 루프를 일반 사용자와 기업 팀에게 낮은 진입 장벽으로 제공합니다. 이는 에이전트 기술이 더 이상 "작성 후 버리는" 일회성 프롬프트 엔지니어링이 아니라 지속적으로 유지 관리할 수 있고, 모델 버전 간 호환되며, 데이터화된 최적화가 가능한 "생산 자산"이 되었음을 의미합니다.

단기적으로 볼 때, 최대 수혜자는 이미 Claude Code / Cowork에서 많은 사용자 정의 기술을 축적한 개발자와 기업 사용자입니다.

더 넓은 관점에서 이 업데이트는 Anthropic이 에이전트 생태계에서 "도구 체인 방어선"을 더욱 강화하는 계기가 되었습니다.

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy 수정 가이드: 어떻게 반짝이는 전설급 애완동물을 얻을 수 있을까

Claude Code Buddy 수정 가이드: 어떻게 반짝이는 전설급 애완동물을 얻을 수 있을까 2026년 4월 1일, Anthropic은 Claude Code 2.1.89 버전에서 조용히 이스터 에그 기능인 /bu...

Obsidian이 Defuddle을 출시하여 Obsidian Web Clipper를 새로운 차원으로 끌어올리다Technology

Obsidian이 Defuddle을 출시하여 Obsidian Web Clipper를 새로운 차원으로 끌어올리다

Obsidian이 Defuddle을 출시하여 Obsidian Web Clipper를 새로운 차원으로 끌어올리다 저는 Obsidian의 핵심 이념인 로컬 우선, 모든 것이 파일이라는 점, 그리고 단순한 Markdow...

OpenAI가 갑자기 발표한 '삼합일': 브라우저 + 프로그래밍 + ChatGPT 통합, 내부에서 지난 1년이 잘못되었다고 인정하다Technology

OpenAI가 갑자기 발표한 '삼합일': 브라우저 + 프로그래밍 + ChatGPT 통합, 내부에서 지난 1년이 잘못되었다고 인정하다

OpenAI가 갑자기 발표한 '삼합일': 브라우저 + 프로그래밍 + ChatGPT 통합, 내부에서 지난 1년이 잘못되었다고 인정하다 2026년 3월 19일 심야, OpenAI 본사에서 내부 메모가 유출되었고, 《월...

2026, 더 이상 스스로를 '자율'하게 강요하지 마세요! 이 8가지 작은 일을 잘하면 건강이 자연스럽게 찾아옵니다Health

2026, 더 이상 스스로를 '자율'하게 강요하지 마세요! 이 8가지 작은 일을 잘하면 건강이 자연스럽게 찾아옵니다

2026, 더 이상 스스로를 '자율'하게 강요하지 마세요! 이 8가지 작은 일을 잘하면 건강이 자연스럽게 찾아옵니다 새로운 한 해가 시작되었습니다. 작년에 세운 목표는 달성하셨나요? 매년 '의욕이 넘치'고 '포기하...

노력해도 살이 빠지지 않는 엄마들, 여기서 모두 실패한다Health

노력해도 살이 빠지지 않는 엄마들, 여기서 모두 실패한다

노력해도 살이 빠지지 않는 엄마들, 여기서 모두 실패한다 3월이 이미 반이 지났습니다. 당신의 다이어트 계획은 어떻게 되어가고 있나요? 살이 빠졌나요? 얼마나 빠졌나요? 나의 다이어트 경험 2월 말에 다이어트를 ...

📝
Technology

AI 브라우저 24시간 안정적 운영 가이드

AI 브라우저 24시간 안정적 운영 가이드 본 튜토리얼은 안정적이고 장기적으로 운영되는 AI 브라우저 환경을 구축하는 방법을 소개합니다. 적합한 용도 AI 에이전트 자동화 브라우징 웹 자동화 AI 어시스턴트 자동 테...