Claude Code + Apify, captura de datos de toda la red sin barreras

3/3/2026
8 min read

Claude Code + Apify, captura de datos de toda la red sin barreras

Claude Code + ApifyHola a todos, soy Lu Gong.

Cuando usas Claude Code, especialmente en el modo Plan, a menudo hay necesidades de utilizar la herramienta WebSearch para capturar datos de páginas web. Pero a menudo te encuentras con errores de Fetch.

Este es un problema antiguo. Con las herramientas WebFetch y WebSearch que vienen con Claude Code, buscar información y hacer investigaciones es suficiente en el 80% de los casos, pero cuando te enfrentas a páginas renderizadas con JS, sitios que requieren inicio de sesión, o necesidades de recolección de datos a gran escala, las herramientas integradas no son suficientes.

Hace unos días, vi a Santiago (@svpino, un conocido blogger en el campo de AI/ML) compartir un conjunto de soluciones. Dijo que se puede usar Claude Code para extraer datos estructurados en tiempo real de cualquier sitio web, y lo que devuelve es una tabla utilizable, no un gran resumen de texto. Lo probé y realmente funciona muy bien.

Hoy hablaremos sobre cómo equipar a Claude Code con la capacidad de recolección de datos de toda la red, con dos caminos a elegir según tus necesidades.

Desventajas de las herramientas de conexión integradas en Claude Code

Claude Code viene con dos herramientas de conexión: WebSearch, que se encarga de la búsqueda, y WebFetch, que se encarga de capturar el contenido de las páginas.

WebSearch es bastante simple; le das una palabra clave y devuelve enlaces y títulos relacionados. WebFetch es un poco más complejo; le das una URL y una pregunta, captura el contenido de la página, convierte el HTML a Markdown usando la biblioteca Turndown, lo recorta a menos de 100KB y luego usa un modelo ligero (Haiku) para resumirlo.

En pocas palabras, estas dos herramientas son una versión simplificada de un navegador. Son utilizables, pero tienen varios defectos.

El mayor problema es que no pueden renderizar JS. Ahora, muchos sitios son SPA (aplicaciones de una sola página), y el contenido se carga dinámicamente con JS. X/Twitter, muchas plataformas de comercio electrónico, varios backends de SaaS, WebFetch no puede capturar el contenido real, solo puede obtener una carcasa vacía.

La capacidad de evitar el scraping también es prácticamente nula. No soporta rotación de proxies, no puede manejar CAPTCHA, y cuando se encuentra con un sitio que tiene mecanismos de protección contra scraping, simplemente no puede hacer nada.

Otro punto doloroso es que solo devuelve resúmenes de texto. Si deseas obtener datos estructurados (como listas de precios de productos, listas de comentarios de usuarios, comparaciones de funciones de productos competidores), WebFetch no puede hacerlo; siempre te dará un texto comprimido.

Estos tres defectos combinados hacen que Claude Code carezca de facilidad de uso en la recolección de datos. Pero ahora hay una solución.

Método 1: Apify Agent Skills

Apify es una plataforma de scraping en la nube bien establecida, que ha estado haciendo recolección de páginas web y automatización durante muchos años. Recientemente, lanzaron un conjunto de Agent Skills, que en términos simples es un conjunto de paquetes de habilidades predefinidas, diseñadas para enseñar al AI Coding Agent cómo hacer recolección de datos.

Dirección del repositorio de GitHub: https://github.com/apify/agent-skills

Este conjunto de Skills es compatible con Claude Code, Cursor, Codex, Gemini CLI y otras herramientas de programación AI populares. Actualmente, hay un total de 12 habilidades, cubriendo un rango bastante amplio.

El núcleo, apify-ultimate-scraper, es una habilidad de scraping universal que puede capturar datos de plataformas como Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, entre otras. Lo clave es que devuelve datos estructurados, que se pueden exportar directamente a CSV o JSON, listos para usar.

Otras habilidades cubren análisis de competidores, monitoreo de reputación de marca, recolección de datos de comercio electrónico, descubrimiento de KOL, adquisición de clientes potenciales, análisis de tendencias, entre otros escenarios. Si haces investigación de mercado o análisis de datos comerciales, este conjunto es simplemente mágico.

Instalar este conjunto de Skills en Claude Code también es muy conveniente. El requisito es tener una cuenta de Apify (regístrate en apify.com, hay un límite gratuito), y una vez que obtengas el API Token, puedes comenzar a configurarlo.

La instalación se divide en dos pasos. Primero, agrega la fuente del mercado:/plugin marketplace add https://github.com/apify/agent-skills Luego instala las habilidades que necesites, como el raspador universal:

/plugin install apify-ultimate-scraper@apify-agent-skills También puedes usar el método genérico de npx para instalar todas las habilidades de una vez:

npx skills add apify/agent-skills Después de la instalación, no olvides configurar tu API Token en el archivo .env en el directorio raíz del proyecto:

APIFYTOKEN=tutoken

Por ejemplo, para extraer datos de videos de Youtube

Aquí hay un punto clave. Santiago enfatiza repetidamente en sus tweets que la ventaja principal de este enfoque es que devuelve datos estructurados. Por ejemplo, si le pides a Claude Code que te extraiga la lista de productos de una plataforma de comercio electrónico, obtendrás una tabla organizada (nombre del producto, precio, calificación, enlace), que es mucho más útil para el análisis que el resumen textual que devuelve WebFetch.

El modelo de facturación de Apify es por resultados, lo que significa que solo se cobra si se logra extraer datos. Sin embargo, para los usuarios individuales, el límite gratuito es suficiente para hacer muchas cosas.

Método dos: Servidor MCP de Apify

Si deseas un control más flexible, o si las habilidades no cubren tu escenario, hay una segunda opción: conectarte a la plataforma Apify directamente a través de MCP (Modelo de Protocolo de Contexto).

A través del Servidor MCP de Apify, Claude Code puede llamar directamente a miles de raspadores y herramientas de automatización disponibles en Apify Store.

Dirección del repositorio de GitHub: https://github.com/apify/apify-mcp-server

La configuración del plan MCP no es complicada. Se recomienda usar un servidor remoto administrado, ya que es la opción más sencilla. Agrega lo siguiente a tu archivo de configuración MCP:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer tuAPIFYTOKEN" } } } } Si prefieres ejecutarlo localmente, puedes usar el método Stdio:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "tuAPIFY_TOKEN" } } } }` Una vez configurado, Claude Code podrá utilizar herramientas como search-actors (buscar raspadores disponibles), call-actor (ejecutar tareas de raspado), get-dataset-items (obtener resultados de raspado), entre otras.

Puedes instalar tanto Skills como el método MCP, ya que ambos pueden complementarse.

Si tu necesidad es de alta frecuencia y el escenario es fijo (por ejemplo, extraer precios de competidores una vez al día), usar Skills es más conveniente, ya que los flujos de trabajo predefinidos están listos para usar.

Si tu necesidad es temporal y el escenario cambia (hoy extraer datos de redes sociales, mañana datos públicos del gobierno), usar MCP es más flexible, ya que Apify Store tiene más de 15,000 Actores que se pueden invocar en cualquier momento.

Ambos métodos tienen el mismo requisito: necesitarás una cuenta de Apify y un API Token, así como un entorno Node.js 20.6 o superior.

Es importante tener en cuenta un punto en el tiempo: el método de transmisión SSE del Servidor MCP de Apify se descontinuará el 1 de abril de 2026, y en ese momento necesitarás actualizar a la forma de HTTP transmitible. Si comienzas a configurar ahora, simplemente usa la configuración recomendada arriba, ya que ya es el nuevo método.

Otras soluciones que vale la pena considerarBrave Search MCP es la solución de búsqueda recomendada oficialmente por Anthropic, ofrece 2000 consultas gratuitas al mes, adecuada para complementar búsquedas diarias, pero es solo un motor de búsqueda y no puede realizar recolección de datos estructurados.

Playwright MCP puede hacer renderizado real en el navegador, puede manejar páginas dinámicas de JavaScript, adecuada para aquellos sitios pesados en JS que WebFetch no puede manejar. Sin embargo, está más orientada a la automatización y no es tan conveniente como Apify para la recolección de datos a gran escala.

Bright Data MCP sigue una ruta empresarial, soporta rotación de proxies y manejo de CAPTCHA, en 2026 lanzó un nuevo plan gratuito (5000 solicitudes MCP al mes), adecuado para escenarios que necesitan superar mecanismos anti-scraping.

Estas soluciones tienen diferentes enfoques y se pueden combinar según las necesidades. Mi combinación actual es usar WebFetch/WebSearch integrados para las necesidades diarias de búsqueda de información, y Apify Skills para la recolección de datos estructurados.

La capacidad de conexión de Claude Code, con herramientas integradas que pueden cubrir el 80% de los escenarios diarios, pero ese 20% restante (renderizado JS, anti-scraping, datos estructurados) es precisamente lo que no se puede evitar en muchos trabajos prácticos. Las habilidades de agente de Apify y el servidor MCP cubren esta brecha, y el proceso de configuración no es complicado, lo que recomiendo encarecidamente a aquellos que tienen necesidades de recolección de datos que lo prueben.

Published in Technology

You Might Also Like