Claude Code + Apify, captura de dades de la xarxa sense barreres

3/3/2026
8 min read

Claude Code + Apify, captura de dades de la xarxa sense barreres

Claude Code + ApifyHola a tots, sóc el Lu Gong.

Quan feu servir Claude Code, especialment en mode Plan, sovint tindreu la necessitat d'utilitzar l'eina WebSearch per capturar dades de pàgines web. Però sovint us trobareu amb errors de Fetch.

Això és un problema antic. Utilitzant les eines WebFetch i WebSearch integrades a Claude Code, per a la recerca d'informació i investigació, en el 80% dels casos és suficient, però quan es tracta de pàgines renderitzades amb JS, llocs que requereixen iniciar sessió, o necessitats de recollida de dades a gran escala, les eines integrades no poden gestionar-ho.

Fa uns dies, vaig veure que Santiago (@svpino, un conegut blogger en el camp de l'IA/ML) va compartir un conjunt de solucions, va dir que es podia utilitzar Claude Code per obtenir dades estructurades en temps real de qualsevol lloc web, retornant taules que es poden utilitzar directament, no un gran resum de text. Ho vaig provar i realment funciona molt bé.

Avui parlarem de com equipar Claude Code amb la capacitat de recollida de dades de la xarxa, dues rutes, escolliu segons les necessitats.

Limitacions de les eines de connexió integrades de Claude Code

Claude Code ve amb dues eines de connexió: WebSearch per a la cerca i WebFetch per a la captura de contingut de pàgines.

WebSearch és força senzill, li doneu una paraula clau i retorna enllaços i títols rellevants. WebFetch és una mica més complex, li doneu una URL i una pregunta, capturarà el contingut de la pàgina, convertirà l'HTML a Markdown mitjançant la biblioteca Turndown, truncarà a menys de 100KB, i després utilitzarà un model lleuger (Haiku) per ajudar-vos a resumir.

Dit d'una manera senzilla, aquestes dues eines són una versió simplificada d'un navegador. Són útils, però tenen algunes debilitats.

El major problema és que no poden renderitzar JS. Ara mateix, molts llocs web són SPA (aplicacions de pàgina única), i el contingut es carrega dinàmicament mitjançant JS. X/Twitter, moltes plataformes de comerç electrònic, diversos backends de SaaS, WebFetch no pot capturar el contingut real, només pot obtenir una carcassa buida.

La capacitat de lluita contra el scraping també és pràcticament nul·la. No suporta la rotació de proxies, no pot gestionar CAPTCHAs, i quan es troba amb llocs amb mecanismes de protecció contra el scraping, no hi ha res a fer.

Un altre punt dolorós és que només retorna resums de text. Si voleu obtenir dades estructurades (com ara taules de preus de productes, llistes de comentaris d'usuaris, comparatives de funcions de competidors), WebFetch no pot fer-ho, sempre us donarà un fragment de text comprimit.

Aquestes tres limitacions combinades fan que Claude Code sempre manqui d'ús fàcil en la recollida de dades. Però ara hi ha una solució.

Mètode 1: Apify Agent Skills

Apify és una plataforma de scraping al núvol ben establerta, que fa recollida de pàgines web i automatització des de fa molts anys. Recentment han llançat un conjunt d'Agent Skills, en poques paraules, és un conjunt de paquets de competències predefinides, dissenyades per ensenyar a l'Agent de Codi AI com fer recollida de dades.

Adreça del repositori de GitHub: https://github.com/apify/agent-skills

Aquests Skills són compatibles amb Claude Code, Cursor, Codex, Gemini CLI i altres eines de programació AI populars. Actualment hi ha un total de 12 habilitats, amb una cobertura força àmplia.

El nucli apify-ultimate-scraper és una habilitat de scraping universal que pot capturar dades de plataformes com Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, etc. La clau és que retorna dades estructurades, que es poden exportar directament a CSV o JSON, i que es poden utilitzar immediatament.

Altres habilitats cobreixen escenaris com anàlisi de competidors, monitorització de la reputació de la marca, recollida de dades de comerç electrònic, descoberta de KOL, adquisició de clients potencials, anàlisi de tendències, etc. Si feu investigació de mercat o anàlisi de dades comercials, aquest conjunt és realment màgic.

Instal·lar aquest conjunt de Skills a Claude Code també és molt convenient. El requisit és tenir un compte d'Apify (registreu-vos a apify.com, hi ha un crèdit gratuït), i després d'obtenir el token API, podeu començar a configurar.

La instal·lació es divideix en dues passes. Primer afegiu la font de mercat:/plugin marketplace add https://github.com/apify/agent-skills torna a instal·lar les habilitats que necessites, com ara el rastrejador universal:

/plugin install apify-ultimate-scraper@apify-agent-skills també es pot fer servir la manera genèrica npx per instal·lar totes les habilitats alhora:

npx skills add apify/agent-skills després d'instal·lar no oblidis configurar el teu API Token al fitxer .env a la carpeta arrel del projecte:

APIFYTOKEN=el teu token

Per exemple, per rastrejar dades de vídeos de Youtube

Aquí hi ha un punt clau. Santiago ha subratllat repetidament en els seus tuits que l'avantatge principal d'aquest pla és que retorna dades estructurades. Per exemple, si demanes a Claude Code que t'ajudi a rastrejar la llista de productes d'una plataforma de comerç electrònic, obtindràs una taula ben organitzada (nom del producte, preu, puntuació, enllaç), que es pot utilitzar directament per fer anàlisis, molt més útil que el resum textual que retorna WebFetch.

El model de facturació d'Apify és per resultats, és a dir, només es cobra si s'obtenen dades amb èxit. No obstant això, per als usuaris particulars, la quota gratuïta és suficient per fer moltes coses.

Mètode 2: Apify MCP Server

Si vols un control més flexible, o si les habilitats no cobreixen el teu escenari, hi ha un segon camí: connectar-te directament a la plataforma Apify a través de MCP (Model Context Protocol).

A través d'Apify MCP Server, Claude Code pot cridar directament milers de rastrejadors i eines d'automatització ja disponibles a l'Apify Store.

Adreça del repositori de GitHub: https://github.com/apify/apify-mcp-server

La configuració del pla MCP tampoc és complicada. Es recomana utilitzar un servidor remot gestionat, la configuració és la més senzilla. Afegeix al teu fitxer de configuració MCP:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer el teu APIFYTOKEN" } } } } si prefereixes executar-ho localment, pots fer-ho amb Stdio:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "el teu APIFYTOKEN" } } } }` un cop configurat, Claude Code podrà cridar eines com search-actors (cercar rastrejadors disponibles), call-actor (executar tasques de rastreig), get-dataset-items (obtenir resultats de rastreig), etc.

Es poden instal·lar tant les habilitats com el mètode MCP, ambdues opcions es poden complementar.

Si la teva necessitat és freqüent i l'escenari és fix (per exemple, rastrejar els preus de la competència cada dia), utilitzar les habilitats és més senzill, ja que els fluxos de treball predefinits estan llestos per usar.

Si la teva necessitat és temporal i l'escenari és variable (avui rastrejar xarxes socials, demà rastrejar dades públiques del govern), el MCP és més flexible, amb més de 15000 Actors disponibles a l'Apify Store que es poden cridar en qualsevol moment.

Ambdues opcions tenen el mateix requisit: necessites un compte d'Apify i un API Token, així com un entorn Node.js 20.6+.

Cal tenir en compte un punt temporal: el mètode de transmissió SSE d'Apify MCP Server es descontinuarà el 1 d'abril de 2026, i caldrà actualitzar a la manera Streamable HTTP. Si comences a configurar ara, simplement utilitza la configuració recomanada anteriorment, ja que és el nou mètode.

Altres solucions que val la pena considerarBrave Search MCP és la solució de cerca recomanada oficialment per Anthropic, amb 2000 consultes gratuïtes al mes, adequada per a la cerca diària com a complement, però és només un motor de cerca i no pot fer recollida de dades estructurades.

Playwright MCP pot fer un renderitzat real del navegador, pot gestionar pàgines dinàmiques de JavaScript, adequada per a aquells llocs web amb un alt contingut de JS que WebFetch no pot manejar. Però està més orientada a operacions d'automatització, no és tan convenient com Apify per fer recollida de dades a gran escala.

Bright Data MCP segueix una ruta empresarial, suporta rotació de proxies i gestió de CAPTCHA, i el 2026 va llançar un nou pla gratuït (5000 sol·licituds MCP al mes), adequat per a escenaris que necessiten superar mecanismes anti-scraping.

Aquestes solucions tenen cadascuna el seu enfocament, es poden combinar segons les necessitats. La meva combinació actual és WebFetch/WebSearch integrat per gestionar les necessitats de consulta diària, i Apify Skills per gestionar la recollida de dades estructurades.

La capacitat de connexió de Claude Code, amb eines integrades que poden cobrir el 80% dels escenaris diaris, però aquell 20% restant (renderitzat JS, anti-scraping, dades estructurades) és precisament el que no es pot evitar en molts treballs pràctics. Les Agent Skills i el MCP Server d'Apify cobreixen aquest buit, i el procés de configuració no és complicat, recomano molt que els estudiants amb necessitats de recollida de dades ho provin.

Published in Technology

You Might Also Like