Claude Code + Apify, raccolta dati senza barriere da tutto il web

Ciao a tutti, sono Lu Gong.

Quando si utilizza Claude Code, specialmente in modalità Piano, spesso si ha la necessità di utilizzare lo strumento WebSearch per raccogliere dati dalle pagine web. Tuttavia, ci si imbatte frequentemente in errori di Fetch.

Questo è in realtà un problema noto. Gli strumenti WebFetch e WebSearch integrati in Claude Code sono sufficienti per la ricerca di informazioni e la conduzione di ricerche nel 80% dei casi, ma quando si tratta di pagine renderizzate in JS, siti che richiedono accesso, o esigenze di raccolta dati su larga scala, gli strumenti integrati non riescono a reggere.

Qualche giorno fa, ho visto Santiago (@svpino, un noto blogger nel campo AI/ML) condividere una soluzione. Ha detto che è possibile utilizzare Claude Code per estrarre dati strutturati in tempo reale da qualsiasi sito web, restituendo tabelle utilizzabili direttamente, non semplici riassunti di testo. L'ho provato e funziona davvero bene.

Oggi parleremo di come dotare Claude Code della capacità di raccogliere dati da tutto il web, con due percorsi da scegliere in base alle necessità.

Limiti degli strumenti di rete integrati in Claude Code

Claude Code ha due strumenti di rete integrati: WebSearch per la ricerca e WebFetch per la raccolta dei contenuti delle pagine.

WebSearch è piuttosto semplice; gli fornisci una parola chiave e restituisce link e titoli correlati. WebFetch è un po' più complesso; gli dai un URL e una domanda, raccoglie il contenuto della pagina, converte l'HTML in Markdown tramite la libreria Turndown, lo tronca a meno di 100KB e poi utilizza un modello leggero (Haiku) per aiutarti a riassumere.

In parole povere, questi due strumenti sono una versione semplificata di un browser. Possono essere utilizzati, ma presentano alcuni difetti gravi.

Il problema principale è che non possono renderizzare JS. Ora molti siti sono SPA (applicazioni a pagina singola), e i contenuti vengono caricati dinamicamente tramite JS. X/Twitter, molte piattaforme di e-commerce, vari backend SaaS, WebFetch non riesce a catturare il contenuto reale, ma solo una shell vuota.

La capacità di evitare il blocco è praticamente zero. Non supporta il rotazione dei proxy, non può gestire CAPTCHA, e quando si incontra un sito con meccanismi anti-bot, non c'è nulla da fare.

Un altro punto dolente è che restituisce solo riassunti testuali. Se desideri ottenere dati strutturati (come tabelle dei prezzi dei prodotti, elenchi di recensioni degli utenti, confronti delle funzionalità dei concorrenti), WebFetch non può farlo; ti fornisce sempre un testo compresso.

Questi tre limiti insieme rendono Claude Code poco pratico per la raccolta di dati. Ma ora c'è una soluzione.

Metodo 1: Apify Agent Skills

Apify è una piattaforma di web scraping consolidata, attiva nella raccolta di dati e automazione da molti anni. Recentemente hanno lanciato un set di Agent Skills, in parole semplici, un insieme di pacchetti di abilità predefiniti che insegnano all'AI Coding Agent come effettuare la raccolta di dati.

Indirizzo del repository GitHub: https://github.com/apify/agent-skills

Queste Skills supportano strumenti di programmazione AI popolari come Claude Code, Cursor, Codex, Gemini CLI, ecc. Attualmente ci sono 12 abilità in totale, coprendo un'ampia gamma di scenari.

L'apify-ultimate-scraper è l'abilità universale per il web scraping, in grado di raccogliere dati da piattaforme come Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, ecc. La cosa importante è che restituisce dati strutturati, che possono essere esportati direttamente in CSV o JSON, pronti per l'uso.

Altre abilità coprono scenari come analisi dei concorrenti, monitoraggio della reputazione del marchio, raccolta di dati e-commerce, scoperta di KOL, acquisizione di lead, analisi delle tendenze, ecc. Se ti occupi di ricerche di mercato o analisi dei dati commerciali, questo set è semplicemente straordinario.

Installare questo set di Skills in Claude Code è anche molto semplice. La condizione è avere un account Apify (registrati su apify.com, c'è un piano gratuito), e dopo aver ottenuto il token API, puoi iniziare a configurare.

L'installazione si svolge in due fasi. Prima aggiungi la fonte di mercato:/plugin marketplace add https://github.com/apify/agent-skills poi installa le competenze necessarie, come il crawler universale:

/plugin install apify-ultimate-scraper@apify-agent-skills puoi anche usare il metodo npx generico per installare tutte le competenze in una volta:

npx skills add apify/agent-skills dopo l'installazione, non dimenticare di configurare il tuo token API nel file .env nella directory principale del progetto:

APIFYTOKEN=iltuotoken

Ad esempio, per estrarre i dati dei video di Youtube Qui c'è un punto chiave. Santiago sottolinea ripetutamente nei suoi tweet che il vantaggio principale di questa soluzione è il ritorno di dati strutturati. Ad esempio, se chiedi a Claude Code di estrarre l'elenco dei prodotti da una piattaforma di e-commerce, otterrai un foglio di calcolo ben organizzato (nome del prodotto, prezzo, valutazione, link), che può essere utilizzato direttamente per l'analisi, molto più utile rispetto al riassunto testuale restituito da WebFetch. Il modello di pagamento di Apify è basato sui risultati, il che significa che paghi solo se riesci a estrarre i dati. Tuttavia, per gli utenti individuali, la quota gratuita è sufficiente per fare molte cose. Metodo 2: Apify MCP Server Se desideri un controllo più flessibile, o se le competenze non coprono il tuo scenario, c'è un secondo percorso: collegarsi direttamente alla piattaforma Apify tramite MCP (Model Context Protocol). Attraverso Apify MCP Server, Claude Code può direttamente chiamare migliaia di crawler e strumenti di automazione già pronti nell'Apify Store. Indirizzo del repository GitHub: https://github.com/apify/apify-mcp-server La configurazione del piano MCP non è complicata. Si consiglia di utilizzare un server remoto gestito, la configurazione è la più semplice. Aggiungi al tuo file di configurazione MCP:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer iltuoAPIFYTOKEN" } } } } se preferisci eseguire localmente, puoi utilizzare il metodo Stdio:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "iltuoAPIFYTOKEN" } } } }` Dopo aver configurato, Claude Code sarà in grado di utilizzare strumenti come search-actors (cerca crawler disponibili), call-actor (esegui compiti di crawling), get-dataset-items (ottieni risultati di scraping) e altro.

Puoi installare sia le competenze che il metodo MCP, i due possono integrarsi.

Se le tue esigenze sono frequenti e il tuo scenario è fisso (ad esempio, estrarre i prezzi dei concorrenti ogni giorno), utilizzare le competenze è più semplice, i flussi di lavoro predefiniti sono pronti all'uso.

Se le tue esigenze sono temporanee e gli scenari sono variabili (oggi estrai dati dai social media, domani estrai dati pubblici dal governo), utilizzare MCP è più flessibile, l'Apify Store ha oltre 15000 Actor che possono essere chiamati in qualsiasi momento.

Entrambi i metodi richiedono le stesse precondizioni: un account Apify e un token API, e un ambiente Node.js 20.6+.

È importante notare un punto temporale: il metodo di trasmissione SSE di Apify MCP Server sarà dismesso il 1 aprile 2026, a quel punto sarà necessario aggiornare al metodo Streamable HTTP. Se inizi a configurare ora, puoi semplicemente utilizzare la configurazione raccomandata sopra, è già il nuovo metodo.

Altre soluzioni degne di notaBrave Search MCP è la soluzione di ricerca raccomandata ufficialmente da Anthropic, offre 2000 query gratuite al mese, adatta come integrazione per ricerche quotidiane, ma è solo un motore di ricerca e non può effettuare raccolta di dati strutturati.

Playwright MCP può effettuare un rendering reale del browser, in grado di gestire pagine dinamiche JavaScript, adatta per quei siti pesantemente basati su JS che WebFetch non riesce a gestire. Tuttavia, è più orientata all'automazione e non è così comoda come Apify per la raccolta di dati su larga scala.

Bright Data MCP segue una linea aziendale, supporta il rotazione dei proxy e la gestione dei CAPTCHA, nel 2026 ha lanciato un nuovo piano gratuito (5000 richieste MCP al mese), adatto per scenari che necessitano di superare meccanismi anti-scraping.

Queste soluzioni hanno ciascuna i propri punti di forza e possono essere combinate secondo le necessità. La mia attuale combinazione è WebFetch/WebSearch integrato per le esigenze di ricerca quotidiana, e Apify Skills per la raccolta di dati strutturati.

La capacità di connessione di Claude Code, con strumenti integrati, può coprire l'80% degli scenari quotidiani, ma quel restante 20% (rendering JS, anti-scraping, dati strutturati) è esattamente ciò che non si può evitare in molti lavori pratici. Le Agent Skills di Apify e il Server MCP colmano questa lacuna, e il processo di configurazione non è complicato, consiglio vivamente a chi ha bisogno di raccogliere dati di provarlo.

Claude Code + Apify, raccolta dati senza barriere da tutto il web

Claude Code + Apify, raccolta dati senza barriere da tutto il web

Limiti degli strumenti di rete integrati in Claude Code

Metodo 1: Apify Agent Skills

Installare questo set di Skills in Claude Code è anche molto semplice. La condizione è avere un account Apify (registrati su apify.com, c'è un piano gratuito), e dopo aver ottenuto il token API, puoi iniziare a configurare.

Ad esempio, per estrarre i dati dei video di Youtube

Metodo 2: Apify MCP Server

You Might Also Like

Guida alla modifica di Claude Code Buddy: come ottenere un animale domestico leggendario splendente

Obsidian ha lanciato Defuddle, portando Obsidian Web Clipper a un nuovo livello

OpenAI annuncia improvvisamente "tre in uno": fusione di browser + programmazione + ChatGPT, ammettendo internamente di aver sbagliato nell'ultimo anno

2026, non costringerti più alla "disciplina"! Fai queste 8 piccole cose e la salute arriverà naturalmente

Quelle mamme che si sforzano di dimagrire ma non ci riescono, sicuramente sono cadute qui

Guida al funzionamento stabile dell'AI Browser 24 ore su 24