Claude Code + Apify, raccolta dati senza barriere da tutto il web
Claude Code + Apify, raccolta dati senza barriere da tutto il web
Ciao a tutti, sono Lu Gong.
Quando si utilizza Claude Code, specialmente in modalità Piano, spesso si ha la necessità di utilizzare lo strumento WebSearch per raccogliere dati dalle pagine web. Tuttavia, ci si imbatte frequentemente in errori di Fetch.
Questo è in realtà un problema noto. Gli strumenti WebFetch e WebSearch integrati in Claude Code sono sufficienti per la ricerca di informazioni e la conduzione di ricerche nel 80% dei casi, ma quando si tratta di pagine renderizzate in JS, siti che richiedono accesso, o esigenze di raccolta dati su larga scala, gli strumenti integrati non riescono a reggere.
Qualche giorno fa, ho visto Santiago (@svpino, un noto blogger nel campo AI/ML) condividere una soluzione. Ha detto che è possibile utilizzare Claude Code per estrarre dati strutturati in tempo reale da qualsiasi sito web, restituendo tabelle utilizzabili direttamente, non semplici riassunti di testo. L'ho provato e funziona davvero bene.
Oggi parleremo di come dotare Claude Code della capacità di raccogliere dati da tutto il web, con due percorsi da scegliere in base alle necessità.
Limiti degli strumenti di rete integrati in Claude Code
Claude Code ha due strumenti di rete integrati: WebSearch per la ricerca e WebFetch per la raccolta dei contenuti delle pagine.
WebSearch è piuttosto semplice; gli fornisci una parola chiave e restituisce link e titoli correlati. WebFetch è un po' più complesso; gli dai un URL e una domanda, raccoglie il contenuto della pagina, converte l'HTML in Markdown tramite la libreria Turndown, lo tronca a meno di 100KB e poi utilizza un modello leggero (Haiku) per aiutarti a riassumere.
In parole povere, questi due strumenti sono una versione semplificata di un browser. Possono essere utilizzati, ma presentano alcuni difetti gravi.
Il problema principale è che non possono renderizzare JS. Ora molti siti sono SPA (applicazioni a pagina singola), e i contenuti vengono caricati dinamicamente tramite JS. X/Twitter, molte piattaforme di e-commerce, vari backend SaaS, WebFetch non riesce a catturare il contenuto reale, ma solo una shell vuota.
La capacità di evitare il blocco è praticamente zero. Non supporta il rotazione dei proxy, non può gestire CAPTCHA, e quando si incontra un sito con meccanismi anti-bot, non c'è nulla da fare.
Un altro punto dolente è che restituisce solo riassunti testuali. Se desideri ottenere dati strutturati (come tabelle dei prezzi dei prodotti, elenchi di recensioni degli utenti, confronti delle funzionalità dei concorrenti), WebFetch non può farlo; ti fornisce sempre un testo compresso.
Questi tre limiti insieme rendono Claude Code poco pratico per la raccolta di dati. Ma ora c'è una soluzione.
Metodo 1: Apify Agent Skills
Apify è una piattaforma di web scraping consolidata, attiva nella raccolta di dati e automazione da molti anni. Recentemente hanno lanciato un set di Agent Skills, in parole semplici, un insieme di pacchetti di abilità predefiniti che insegnano all'AI Coding Agent come effettuare la raccolta di dati.
Indirizzo del repository GitHub: https://github.com/apify/agent-skills
Queste Skills supportano strumenti di programmazione AI popolari come Claude Code, Cursor, Codex, Gemini CLI, ecc. Attualmente ci sono 12 abilità in totale, coprendo un'ampia gamma di scenari.
L'apify-ultimate-scraper è l'abilità universale per il web scraping, in grado di raccogliere dati da piattaforme come Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, ecc. La cosa importante è che restituisce dati strutturati, che possono essere esportati direttamente in CSV o JSON, pronti per l'uso.
Altre abilità coprono scenari come analisi dei concorrenti, monitoraggio della reputazione del marchio, raccolta di dati e-commerce, scoperta di KOL, acquisizione di lead, analisi delle tendenze, ecc. Se ti occupi di ricerche di mercato o analisi dei dati commerciali, questo set è semplicemente straordinario.
Installare questo set di Skills in Claude Code è anche molto semplice. La condizione è avere un account Apify (registrati su apify.com, c'è un piano gratuito), e dopo aver ottenuto il token API, puoi iniziare a configurare.
L'installazione si svolge in due fasi. Prima aggiungi la fonte di mercato:/plugin marketplace add https://github.com/apify/agent-skills poi installa le competenze necessarie, come il crawler universale:
/plugin install apify-ultimate-scraper@apify-agent-skills puoi anche usare il metodo npx generico per installare tutte le competenze in una volta:
npx skills add apify/agent-skills dopo l'installazione, non dimenticare di configurare il tuo token API nel file .env nella directory principale del progetto:
APIFYTOKEN=iltuotoken
Ad esempio, per estrarre i dati dei video di Youtube
Qui c'è un punto chiave. Santiago sottolinea ripetutamente nei suoi tweet che il vantaggio principale di questa soluzione è il ritorno di dati strutturati. Ad esempio, se chiedi a Claude Code di estrarre l'elenco dei prodotti da una piattaforma di e-commerce, otterrai un foglio di calcolo ben organizzato (nome del prodotto, prezzo, valutazione, link), che può essere utilizzato direttamente per l'analisi, molto più utile rispetto al riassunto testuale restituito da WebFetch.
Il modello di pagamento di Apify è basato sui risultati, il che significa che paghi solo se riesci a estrarre i dati. Tuttavia, per gli utenti individuali, la quota gratuita è sufficiente per fare molte cose.
Metodo 2: Apify MCP Server
Se desideri un controllo più flessibile, o se le competenze non coprono il tuo scenario, c'è un secondo percorso: collegarsi direttamente alla piattaforma Apify tramite MCP (Model Context Protocol).
Attraverso Apify MCP Server, Claude Code può direttamente chiamare migliaia di crawler e strumenti di automazione già pronti nell'Apify Store.
Indirizzo del repository GitHub: https://github.com/apify/apify-mcp-server
La configurazione del piano MCP non è complicata. Si consiglia di utilizzare un server remoto gestito, la configurazione è la più semplice. Aggiungi al tuo file di configurazione MCP:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer iltuoAPIFYTOKEN" } } } } se preferisci eseguire localmente, puoi utilizzare il metodo Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "iltuoAPIFYTOKEN" } } } }` Dopo aver configurato, Claude Code sarà in grado di utilizzare strumenti come search-actors (cerca crawler disponibili), call-actor (esegui compiti di crawling), get-dataset-items (ottieni risultati di scraping) e altro.
Puoi installare sia le competenze che il metodo MCP, i due possono integrarsi.
Se le tue esigenze sono frequenti e il tuo scenario è fisso (ad esempio, estrarre i prezzi dei concorrenti ogni giorno), utilizzare le competenze è più semplice, i flussi di lavoro predefiniti sono pronti all'uso.
Se le tue esigenze sono temporanee e gli scenari sono variabili (oggi estrai dati dai social media, domani estrai dati pubblici dal governo), utilizzare MCP è più flessibile, l'Apify Store ha oltre 15000 Actor che possono essere chiamati in qualsiasi momento.
Entrambi i metodi richiedono le stesse precondizioni: un account Apify e un token API, e un ambiente Node.js 20.6+.
È importante notare un punto temporale: il metodo di trasmissione SSE di Apify MCP Server sarà dismesso il 1 aprile 2026, a quel punto sarà necessario aggiornare al metodo Streamable HTTP. Se inizi a configurare ora, puoi semplicemente utilizzare la configurazione raccomandata sopra, è già il nuovo metodo.

