Claude Code + Apify, coleta de dados acessível na web
Claude Code + Apify, coleta de dados acessível na web
Olá a todos, eu sou Lu Gong.
Quando vocês usam o Claude Code, especialmente no modo Plan, frequentemente há a necessidade de utilizar a ferramenta WebSearch para coletar dados da web. Mas muitas vezes encontramos a situação de erro de Fetch.
Esse é um problema antigo. Usando as ferramentas WebFetch e WebSearch integradas ao Claude Code, para pesquisa e levantamento de dados, 80% das situações são suficientes, mas quando encontramos páginas renderizadas em JS, sites que requerem login, ou a necessidade de coleta de dados em grande escala, as ferramentas internas não conseguem lidar.
Há alguns dias, vi Santiago (@svpino, um conhecido blogueiro na área de AI/ML) compartilhar uma solução, ele disse que é possível usar o Claude Code para puxar dados estruturados em tempo real de qualquer site, retornando uma tabela que pode ser usada diretamente, não aquele resumo longo de texto. Eu testei e realmente funciona muito bem.
Hoje vamos falar sobre como equipar o Claude Code com a capacidade de coleta de dados da web, duas rotas, escolha conforme a necessidade.
Limitações das ferramentas de rede integradas do Claude Code
O Claude Code vem com duas ferramentas de rede: WebSearch para busca e WebFetch para coletar conteúdo de páginas.
O WebSearch é relativamente simples, você fornece uma palavra-chave e ele retorna links e títulos relacionados. O WebFetch é um pouco mais complexo, você fornece uma URL e uma pergunta, ele coleta o conteúdo da página, converte o HTML em Markdown usando a biblioteca Turndown, corta para menos de 100KB e usa um modelo leve (Haiku) para resumir.
Em outras palavras, essas duas ferramentas são uma versão simplificada de um navegador. Podem ser usadas, mas têm algumas falhas sérias.
O maior problema é que não conseguem renderizar JS. Atualmente, muitos sites são SPA (aplicações de página única), e o conteúdo é carregado dinamicamente via JS. X/Twitter, muitas plataformas de e-commerce, vários backends de SaaS, o WebFetch não consegue capturar o conteúdo real, apenas obtém uma casca vazia.
A capacidade de evitar scraping também é praticamente zero. Não suporta rotação de proxies, não consegue lidar com CAPTCHA, e quando encontra sites com mecanismos de proteção contra scraping, só pode desistir.
Outro ponto crítico é que só retorna resumos de texto. Se você deseja obter dados estruturados (como tabelas de preços de produtos, listas de comentários de usuários, comparações de funcionalidades de concorrentes), o WebFetch não consegue, ele sempre fornece um trecho de texto comprimido.
Essas três limitações juntas fazem com que o Claude Code sempre careça de usabilidade na coleta de dados. Mas agora há uma solução.
Método 1: Apify Agent Skills
Apify é uma plataforma de scraping em nuvem bem estabelecida, que faz coleta de dados da web e automação há muitos anos. Recentemente, eles lançaram um conjunto de Agent Skills, que, em termos simples, é um conjunto de pacotes de habilidades pré-fabricadas, projetadas para ensinar o AI Coding Agent como realizar a coleta de dados.
O endereço do repositório GitHub: https://github.com/apify/agent-skills
Essas Skills suportam ferramentas de programação AI populares como Claude Code, Cursor, Codex, Gemini CLI, entre outras. Atualmente, existem 12 habilidades no total, cobrindo uma ampla gama de cenários.
A habilidade central, apify-ultimate-scraper, é uma habilidade de scraping versátil que pode coletar dados de plataformas como Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, entre outras. O ponto chave é que ela retorna dados estruturados, que podem ser exportados diretamente em CSV ou JSON, prontos para uso.
Outras habilidades cobrem cenários como análise de concorrentes, monitoramento de reputação de marca, coleta de dados de e-commerce, descoberta de KOLs, aquisição de leads, análise de tendências, entre outros. Se você faz pesquisa de mercado ou análise de dados comerciais, esse conjunto é simplesmente incrível.
Instalar esse conjunto de Skills no Claude Code também é muito conveniente. A condição é ter uma conta Apify (registre-se em apify.com, há uma cota gratuita), e após obter o Token da API, você pode começar a configuração.
A instalação é dividida em duas etapas. Primeiro, adicione a fonte de mercado:/plugin marketplace add https://github.com/apify/agent-skills Instale as habilidades que você precisa, como o coletor universal:
/plugin install apify-ultimate-scraper@apify-agent-skills Você também pode usar o método npx genérico para instalar todas as habilidades de uma vez:
npx skills add apify/agent-skills Após a instalação, não se esqueça de configurar seu Token de API no arquivo .env no diretório raiz do projeto:
APIFYTOKEN=seutoken
Por exemplo, coletando dados de vídeos do Youtube
Aqui está um ponto crucial. Santiago enfatizou repetidamente em seus tweets que a principal vantagem deste plano é o retorno de dados estruturados. Por exemplo, se você pedir ao Claude Code para coletar a lista de produtos de uma plataforma de e-commerce, você receberá uma tabela organizada (nome do produto, preço, avaliação, link), que pode ser usada diretamente para análise, muito mais útil do que o resumo textual retornado pelo WebFetch.
O modelo de cobrança da Apify é baseado em resultados, ou seja, você só paga se conseguir coletar os dados com sucesso. No entanto, para usuários individuais, a cota gratuita é suficiente para fazer muitas coisas.
Método dois: Servidor Apify MCP
Se você deseja um controle mais flexível, ou se as Skills não cobrem seu cenário, há um segundo caminho: conectar-se diretamente à plataforma Apify através do MCP (Model Context Protocol).
Através do Servidor Apify MCP, o Claude Code pode chamar diretamente milhares de coletores e ferramentas de automação prontas no Apify Store.
Endereço do repositório GitHub: https://github.com/apify/apify-mcp-server
A configuração do plano MCP também não é complicada. Recomenda-se usar um servidor remoto gerenciado, pois a configuração é mais simples. Adicione ao seu arquivo de configuração MCP:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer seuAPIFYTOKEN" } } } } Se você preferir executar localmente, pode usar o método Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "seuAPIFY_TOKEN" } } } } Após a configuração, o Claude Code poderá chamar ferramentas como search-actors (pesquisar coletores disponíveis), call-actor (executar tarefas de coleta), get-dataset-items (obter resultados da coleta), entre outras.
As Skills e o método MCP podem ser instalados juntos, pois ambos se complementam.
Se sua necessidade é frequente e o cenário é fixo (por exemplo, coletar preços de concorrentes uma vez por dia), usar Skills é mais prático, pois os fluxos de trabalho pré-configurados estão prontos para uso.
Se sua necessidade é temporária e o cenário é variável (coletar dados de mídias sociais hoje, dados públicos do governo amanhã), usar MCP é mais flexível, com mais de 15000 Atores disponíveis no Apify Store para serem chamados a qualquer momento.
As duas abordagens têm o mesmo pré-requisito: é necessário ter uma conta Apify e um Token de API, além de um ambiente Node.js 20.6+.
É importante notar um ponto no tempo: o método de transmissão SSE do Servidor Apify MCP será descontinuado em 1º de abril de 2026, e será necessário atualizar para o método Streamable HTTP. Se você começar a configuração agora, basta usar a configuração recomendada acima, que já é o novo método.

