Claude Code + Apify, 장애물 없는 데이터 수집
Claude Code + Apify, 장애물 없는 데이터 수집
안녕하세요, 저는 루공입니다.
여러분이 Claude Code를 사용할 때, 특히 Plan 모드에서 웹 데이터 수집을 위해 WebSearch 도구를 자주 사용하게 됩니다. 하지만 Fetch error 상황에 자주 부딪히곤 합니다.
사실 이 문제는 오래된 문제입니다. Claude Code에 내장된 WebFetch와 WebSearch 도구를 사용하여 자료를 조사하고 연구하는 데는 80%의 경우 충분하지만, JS 렌더링 페이지, 로그인해야 하는 사이트, 또는 대규모 데이터 수집이 필요한 경우에는 내장 도구가 한계를 드러냅니다.
며칠 전, AI/ML 분야의 유명 블로거인 Santiago(@svpino)가 공유한 솔루션을 보았습니다. 그는 Claude Code를 사용하여 어떤 웹사이트에서든 실시간 구조화된 데이터를 가져올 수 있다고 말했습니다. 반환되는 것은 바로 사용할 수 있는 표 형식이며, 긴 텍스트 요약이 아닙니다. 제가 직접 시도해 보니 정말 유용했습니다.
오늘은 Claude Code에 전 세계 데이터 수집 능력을 추가하는 방법에 대해 이야기해 보겠습니다. 두 가지 경로가 있으며, 필요에 따라 선택할 수 있습니다.
Claude Code 내장 네트워크 도구의 단점
Claude Code는 두 개의 네트워크 도구를 내장하고 있습니다: WebSearch는 검색을 담당하고, WebFetch는 페이지 내용을 수집합니다.
WebSearch는 비교적 간단합니다. 검색어를 입력하면 관련 링크와 제목을 반환합니다. WebFetch는 조금 더 복잡합니다. URL과 질문을 입력하면 페이지 내용을 수집하고, Turndown 라이브러리를 사용하여 HTML을 Markdown으로 변환한 후 100KB 이내로 잘라내고, 경량 모델(Haiku)을 사용하여 요약합니다.
간단히 말해, 이 두 도구는 간단한 브라우저와 같습니다. 사용할 수는 있지만 몇 가지 단점이 있습니다.
가장 큰 문제는 JS를 렌더링할 수 없다는 것입니다. 현재 많은 웹사이트가 SPA(단일 페이지 애플리케이션)로, 내용이 JS로 동적으로 로드됩니다. X/Twitter, 많은 전자상거래 플랫폼, 다양한 SaaS 백엔드에서 WebFetch는 실제 내용을 가져올 수 없고, 빈 껍데기만 가져올 수 있습니다.
또한, 반 크롤링 능력이 거의 없습니다. 프록시 회전을 지원하지 않으며, CAPTCHA 인증을 처리할 수 없고, 반 크롤링 메커니즘이 있는 웹사이트에 부딪히면 그냥 포기해야 합니다.
또한, 텍스트 요약만 반환하는 것도 문제입니다. 구조화된 데이터(예: 상품 가격표, 사용자 리뷰 목록, 경쟁 제품 기능 비교)를 얻고 싶다면 WebFetch는 불가능합니다. 항상 압축된 텍스트만 반환합니다.
이 세 가지 단점이 결합되어 Claude Code는 데이터 수집에서 항상 사용성이 부족합니다. 하지만 이제 해결책이 있습니다.
방법 1: Apify Agent Skills
Apify는 오래된 클라우드 크롤링 플랫폼으로, 웹 페이지 수집 및 자동화를 수년간 해왔습니다. 최근 그들은 Agent Skills라는 일련의 솔루션을 출시했습니다. 간단히 말해, AI Coding Agent가 데이터 수집을 하는 방법을 가르치는 미리 제작된 기술 패키지입니다.
GitHub 저장소 주소: https://github.com/apify/agent-skills
이 기술은 Claude Code, Cursor, Codex, Gemini CLI 등 주요 AI 프로그래밍 도구를 지원합니다. 현재 총 12개의 기술이 있으며, 범위가 상당히 넓습니다.
핵심 apify-ultimate-scraper는 만능 크롤러 기술로, Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search 등 플랫폼의 데이터를 수집할 수 있습니다. 중요한 것은 반환되는 것이 구조화된 데이터로, CSV 또는 JSON으로 직접 내보낼 수 있어 바로 사용할 수 있다는 점입니다.
다른 기술들은 경쟁 제품 분석, 브랜드 평판 모니터링, 전자상거래 데이터 수집, KOL 발견, 잠재 고객 확보, 트렌드 분석 등의 시나리오를 다룹니다. 시장 조사나 비즈니스 데이터 분석을 한다면 이 세트는 정말 놀랍습니다.
Claude Code에 이 기술을 설치하는 것도 매우 간편합니다. 전제 조건은 Apify 계정이 필요하며(apify.com에서 등록 가능, 무료 할당량 있음), API 토큰을 받은 후 설정을 시작할 수 있습니다.
설치는 두 단계로 나뉩니다. 먼저 시장 소스를 추가합니다:/plugin marketplace add https://github.com/apify/agent-skills 필요한 기술을 설치하세요, 예를 들어 만능 크롤러:
/plugin install apify-ultimate-scraper@apify-agent-skills 일반적인 npx 방식을 사용하여 모든 기술을 한 번에 설치할 수도 있습니다:
npx skills add apify/agent-skills 설치 후 프로젝트 루트 디렉토리의 .env 파일에 당신의 API Token을 설정하는 것을 잊지 마세요:
APIFYTOKEN=당신의token
예를 들어 Youtube 비디오 데이터 크롤링
여기서 중요한 점을 말씀드리겠습니다. Santiago는 트윗에서 이 솔루션의 핵심 장점이 구조화된 데이터를 반환한다는 것을 반복해서 강조했습니다. 예를 들어, Claude Code에게 특정 전자상거래 플랫폼의 상품 목록을 크롤링하도록 요청하면, 정리된 표(상품명, 가격, 평점, 링크)를 받아 분석에 바로 사용할 수 있습니다. WebFetch가 반환하는 텍스트 요약보다 훨씬 유용합니다.
Apify의 요금제는 결과에 따라 요금을 부과합니다. 즉, 데이터를 성공적으로 크롤링해야만 요금이 부과됩니다. 하지만 개인 사용자에게는 무료 한도가 충분히 많은 작업을 수행할 수 있습니다.
방법 2: Apify MCP 서버
더 유연한 제어를 원하시거나 Skills에서 당신의 시나리오를 커버하지 못하는 경우, 두 번째 방법이 있습니다: MCP(모델 컨텍스트 프로토콜)를 통해 Apify 플랫폼에 직접 접속하는 것입니다.
Apify MCP 서버를 통해 Claude Code는 Apify Store에 있는 수천 개의 기성 크롤러와 자동화 도구를 직접 호출할 수 있습니다.
GitHub 저장소 주소: https://github.com/apify/apify-mcp-server
MCP 솔루션 구성도 복잡하지 않습니다. 관리되는 원격 서버 방식을 사용하는 것을 추천합니다. 구성하는 것이 가장 간편합니다. 당신의 MCP 구성 파일에 다음을 추가하세요:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer 당신의APIFYTOKEN" } } } }
로컬에서 실행하는 것을 선호한다면 Stdio 방식을 사용할 수 있습니다:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "당신의APIFYTOKEN" } } } }
구성이 완료되면 Claude Code는 search-actors(사용 가능한 크롤러 검색), call-actor(크롤러 작업 실행), get-dataset-items(크롤링 결과 가져오기) 등의 도구를 호출할 수 있습니다.
Skills와 MCP 방법은 모두 설치할 수 있으며, 서로 보완할 수 있습니다.
당신의 요구가 빈번하고 고정된 시나리오(예: 매일 경쟁 제품 가격을 크롤링)라면, Skills를 사용하는 것이 더 편리하며, 미리 구성된 워크플로우를 즉시 사용할 수 있습니다.
당신의 요구가 임시적이고 다양한 시나리오(오늘은 소셜 미디어를 크롤링하고, 내일은 정부 공개 데이터를 크롤링)라면, MCP가 더 유연하며, Apify Store에는 언제든지 호출할 수 있는 15000개 이상의 Actor가 있습니다.
두 가지 방법 모두 동일한 전제 조건이 있습니다: Apify 계정과 API Token이 필요하며, Node.js 20.6+ 환경이 필요합니다.
하나의 시간 지점을 반드시 주의해야 합니다: Apify MCP 서버의 SSE 전송 방식은 2026년 4월 1일에 폐기될 예정이며, 그때는 Streamable HTTP 방식으로 업데이트해야 합니다. 지금부터 구성을 시작한다면, 위에서 추천한 구성을 그대로 사용하면 됩니다. 이미 새로운 방식입니다.
다른 주목할 만한 솔루션
Brave Search MCP는 Anthropic의 공식 추천 검색 솔루션으로, 매달 2000회의 무료 쿼리를 제공하며, 일상적인 검색 보충에 적합하지만, 단순한 검색 엔진일 뿐 구조화된 데이터 수집은 할 수 없다.
Playwright MCP는 실제 브라우저 렌더링을 수행할 수 있으며, JavaScript 동적 페이지를 처리할 수 있어 WebFetch로 해결할 수 없는 JS 중심 사이트에 적합하다. 그러나 자동화 작업에 더 중점을 두고 있어 Apify만큼 대규모 데이터 수집에 편리하지는 않다.
Bright Data MCP는 기업급 솔루션을 지향하며, 프록시 회전 및 CAPTCHA 처리를 지원하고, 2026년에 새로운 무료 요금제를 출시했다(매달 5000회의 MCP 요청). 이는 반크롤링 메커니즘을 우회해야 하는 상황에 적합하다.
이 몇 가지 솔루션은 각각의 장점이 있어 필요에 따라 조합할 수 있다. 현재 내 조합은 내장된 WebFetch/WebSearch를 사용하여 일상적인 자료 검색 요구를 처리하고, Apify Skills를 사용하여 구조화된 데이터 수집을 처리하고 있다.
Claude Code의 네트워크 기능은 내장 도구가 일상적인 80%의 상황을 커버할 수 있지만, 나머지 20% (JS 렌더링, 반크롤링, 구조화된 데이터)는 많은 실제 작업에서 피할 수 없는 부분이다. Apify의 Agent Skills와 MCP Server가 이 격차를 메워주며, 설정 과정도 복잡하지 않아 데이터 수집이 필요한 학생들에게 매우 추천한다.

