Claude Code + Apify, captura de datos de toda la red sin barreras
Claude Code + Apify, captura de datos de toda la red sin barreras
Hola a todos, soy Lu Gong.
Cuando usas Claude Code, especialmente en modo Plan, a menudo hay una necesidad de utilizar la herramienta WebSearch para capturar datos de páginas web. Pero a menudo te encuentras con errores de Fetch.
Este es un problema antiguo. Con las herramientas WebFetch y WebSearch que vienen con Claude Code, para buscar información y hacer investigaciones, en el 80% de los casos son suficientes, pero cuando te enfrentas a páginas renderizadas por JS, sitios que requieren inicio de sesión, o la necesidad de recopilar grandes volúmenes de datos, las herramientas integradas no son suficientes.
Hace un par de días, vi a Santiago (@svpino, un conocido blogger en el campo de AI/ML) compartir un conjunto de soluciones. Dijo que se puede usar Claude Code para extraer datos estructurados en tiempo real de cualquier sitio web, y lo que devuelve es una tabla utilizable, no un gran resumen de texto. Lo probé y realmente funciona muy bien.
Hoy hablaré sobre cómo equipar a Claude Code con la capacidad de recopilación de datos de toda la red, hay dos caminos, elige según tus necesidades.
Desventajas de las herramientas de red integradas en Claude Code
Claude Code viene con dos herramientas de red: WebSearch se encarga de la búsqueda, y WebFetch se encarga de capturar el contenido de la página.
WebSearch es bastante simple, le das una palabra clave y devuelve enlaces y títulos relacionados. WebFetch es un poco más complejo, le das una URL y una pregunta, captura el contenido de la página, convierte el HTML a Markdown usando la biblioteca Turndown, lo recorta a menos de 100KB y luego utiliza un modelo ligero (Haiku) para resumir.
En pocas palabras, estas dos herramientas son una versión simplificada de un navegador. Pueden usarse, pero tienen varios defectos.
El mayor problema es que no pueden renderizar JS. Ahora, muchos sitios web son SPA (aplicaciones de una sola página), y el contenido se carga dinámicamente mediante JS. X/Twitter, muchas plataformas de comercio electrónico, varios backends de SaaS, WebFetch no puede capturar el contenido real, solo puede obtener una estructura vacía.
La capacidad de evitar el scraping también es prácticamente nula. No soporta rotación de proxies, no puede manejar CAPTCHA, y cuando se encuentra con un sitio web que tiene mecanismos de anti-scraping, simplemente no puede hacer nada.
Otro punto doloroso es que solo devuelve resúmenes de texto. Si deseas obtener datos estructurados (como tablas de precios de productos, listas de comentarios de usuarios, comparaciones de funciones de productos competidores), WebFetch no puede hacerlo, siempre te dará un texto comprimido.
Estos tres defectos combinados hacen que Claude Code carezca de facilidad de uso en la recopilación de datos. Pero ahora hay una solución.
Método 1: Apify Agent Skills
Apify es una plataforma de scraping en la nube bien establecida, que ha estado haciendo captura de páginas web y automatización durante muchos años. Recientemente, lanzaron un conjunto de Agent Skills, que en términos simples es un conjunto de paquetes de habilidades predefinidos, diseñados para enseñar a AI Coding Agent cómo realizar la recopilación de datos.
Dirección del repositorio de GitHub: https://github.com/apify/agent-skills
Este conjunto de Skills es compatible con Claude Code, Cursor, Codex, Gemini CLI y otras herramientas de programación AI populares. Actualmente hay un total de 12 habilidades, cubriendo un rango bastante amplio.
El núcleo, apify-ultimate-scraper, es una habilidad de scraping universal que puede capturar datos de plataformas como Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, etc. Lo clave es que devuelve datos estructurados, que se pueden exportar directamente a CSV o JSON, listos para usar.
Otras habilidades cubren análisis de competidores, monitoreo de reputación de marca, recopilación de datos de comercio electrónico, descubrimiento de KOL, adquisición de clientes potenciales, análisis de tendencias, entre otros escenarios. Si haces investigaciones de mercado o análisis de datos comerciales, este conjunto es simplemente mágico.
Instalar este conjunto de Skills en Claude Code también es muy conveniente. El requisito es tener una cuenta de Apify (regístrate en apify.com, hay un límite gratuito), y una vez que obtengas el Token de API, puedes comenzar a configurarlo.
La instalación se divide en dos pasos. Primero, agrega la fuente de mercado:/plugin marketplace add https://github.com/apify/agent-skills Luego instala las habilidades que necesitas, como el raspador universal:
/plugin install apify-ultimate-scraper@apify-agent-skills También puedes usar el método genérico de npx para instalar todas las habilidades de una vez:
npx skills add apify/agent-skills Después de la instalación, no olvides configurar tu token de API en el archivo .env en el directorio raíz del proyecto:
APIFYTOKEN=tutoken
Por ejemplo, para extraer datos de videos de Youtube
Aquí hay un punto clave. Santiago enfatiza repetidamente en sus tweets que la ventaja principal de este enfoque es que devuelve datos estructurados. Por ejemplo, si le pides a Claude Code que extraiga la lista de productos de una plataforma de comercio electrónico, obtendrás una tabla organizada (nombre del producto, precio, calificación, enlace), que es mucho más útil para el análisis que el resumen de texto que devuelve WebFetch.
El modelo de facturación de Apify es por resultados, lo que significa que solo se cobra si se logra extraer datos. Sin embargo, para los usuarios individuales, la cuota gratuita es suficiente para hacer muchas cosas.
Método dos: Servidor MCP de Apify
Si deseas un control más flexible, o si las habilidades no cubren tu escenario, hay un segundo camino: conectarte directamente a la plataforma Apify a través de MCP (Protocolo de Contexto del Modelo).
A través del Servidor MCP de Apify, Claude Code puede llamar directamente a miles de raspadores y herramientas de automatización listas para usar en la tienda de Apify.
Dirección del repositorio de GitHub: https://github.com/apify/apify-mcp-server
La configuración del plan MCP no es complicada. Se recomienda usar un servidor remoto administrado, ya que es la opción más sencilla. Agrega lo siguiente a tu archivo de configuración MCP:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer tuAPIFYTOKEN" } } } } Si prefieres ejecutarlo localmente, puedes usar el método Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "tuAPIFY_TOKEN" } } } }` Una vez configurado, Claude Code podrá utilizar herramientas como search-actors (buscar raspadores disponibles), call-actor (ejecutar tareas de raspado), get-dataset-items (obtener resultados de raspado), entre otras.
Puedes instalar ambos métodos, Skills y MCP, ya que se complementan entre sí.
Si tu necesidad es frecuente y el escenario es fijo (por ejemplo, extraer precios de competidores una vez al día), usar Skills es más conveniente, ya que los flujos de trabajo predefinidos están listos para usar.
Si tu necesidad es temporal y el escenario cambia (hoy extraer de redes sociales, mañana de datos públicos del gobierno), usar MCP es más flexible, ya que hay más de 15000 Actores en la tienda de Apify que puedes llamar en cualquier momento.
Ambos métodos tienen el mismo requisito: necesitas una cuenta de Apify y un token de API, y un entorno Node.js 20.6+.
Es importante tener en cuenta un punto en el tiempo: el método de transmisión SSE del Servidor MCP de Apify será descontinuado el 1 de abril de 2026, y deberás actualizar a un método HTTP transmitible. Si comienzas a configurar ahora, simplemente utiliza la configuración recomendada anteriormente, que ya es el nuevo método.

