Claude Code + Apify, coleta de dados da web sem barreiras

Olá a todos, eu sou Lu Gong.

Quando você usa o Claude Code, especialmente no modo Plan, frequentemente há a necessidade de usar a ferramenta WebSearch para coletar dados da web. Mas muitas vezes você pode encontrar a situação de erro de Fetch.

Esse é um problema antigo. Usando as ferramentas WebFetch e WebSearch integradas ao Claude Code, para pesquisa e investigação, 80% das situações são suficientes, mas quando se trata de páginas renderizadas em JS, sites que requerem login ou a necessidade de coleta de dados em larga escala, as ferramentas integradas não conseguem lidar.

Há alguns dias, vi Santiago (@svpino, um conhecido blogueiro na área de AI/ML) compartilhar uma solução. Ele disse que é possível usar o Claude Code para puxar dados estruturados em tempo real de qualquer site, retornando uma tabela utilizável, e não um grande resumo de texto. Eu testei e realmente funciona muito bem.

Hoje vamos falar sobre como equipar o Claude Code com a capacidade de coleta de dados da web, com duas opções, escolha conforme necessário.

Limitações das ferramentas de rede integradas do Claude Code

O Claude Code vem com duas ferramentas de rede: WebSearch para busca e WebFetch para coletar conteúdo de páginas.

O WebSearch é bastante simples; você fornece uma palavra-chave e ele retorna links e títulos relevantes. O WebFetch é um pouco mais complexo; você fornece uma URL e uma pergunta, ele coleta o conteúdo da página, converte o HTML em Markdown usando a biblioteca Turndown, corta para menos de 100KB e usa um modelo leve (Haiku) para resumir.

Em outras palavras, essas duas ferramentas são uma versão simplificada de um navegador. Elas funcionam, mas têm algumas falhas sérias.

O maior problema é que não conseguem renderizar JS. Atualmente, muitos sites são SPA (aplicações de página única), e o conteúdo é carregado dinamicamente via JS. O X/Twitter, muitas plataformas de e-commerce e vários backends de SaaS, o WebFetch não consegue capturar o conteúdo real, apenas obtém uma casca vazia.

A capacidade de evitar scraping também é praticamente zero. Não suporta rotação de proxies, não pode lidar com CAPTCHA, e ao encontrar sites com mecanismos de proteção contra scraping, não há o que fazer.

Outro ponto crítico é que ele só retorna resumos de texto. Se você deseja obter dados estruturados (como tabelas de preços de produtos, listas de comentários de usuários, comparações de funcionalidades de concorrentes), o WebFetch não consegue, ele sempre fornece um trecho de texto comprimido.

Essas três limitações juntas fazem com que o Claude Code careça de usabilidade na coleta de dados. Mas agora há uma solução.

Método 1: Apify Agent Skills

Apify é uma plataforma de scraping na nuvem bem estabelecida, que faz coleta de dados da web e automação há muitos anos. Recentemente, eles lançaram um conjunto de Agent Skills, que, em termos simples, é um conjunto de pacotes de habilidades pré-fabricadas, projetadas para ensinar ao AI Coding Agent como realizar a coleta de dados.

Endereço do repositório GitHub: https://github.com/apify/agent-skills

Essas Skills suportam ferramentas de programação AI populares como Claude Code, Cursor, Codex, Gemini CLI, entre outras. Atualmente, existem 12 habilidades no total, cobrindo uma ampla gama de aplicações.

A habilidade central, apify-ultimate-scraper, é uma habilidade de scraping universal que pode coletar dados de plataformas como Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, etc. O importante é que ela retorna dados estruturados, que podem ser exportados diretamente em CSV ou JSON, prontos para uso.

Outras habilidades cobrem cenários como análise de concorrentes, monitoramento de reputação de marca, coleta de dados de e-commerce, descoberta de KOLs, aquisição de leads, análise de tendências, entre outros. Se você está fazendo pesquisa de mercado ou análise de dados comerciais, esse conjunto é simplesmente incrível.

Instalar esse conjunto de Skills no Claude Code também é muito fácil. A condição é ter uma conta Apify (registre-se em apify.com, há uma cota gratuita), e após obter o Token da API, você pode começar a configuração.

A instalação é dividida em duas etapas. Primeiro, adicione a fonte de mercado:/plugin marketplace add https://github.com/apify/agent-skills Instale as habilidades necessárias, como o coletor universal:

/plugin install apify-ultimate-scraper@apify-agent-skills Você também pode usar o método npx genérico para instalar todas as habilidades de uma vez:

npx skills add apify/agent-skills Após a instalação, não se esqueça de configurar seu Token de API no arquivo .env no diretório raiz do projeto:

APIFYTOKEN=seutoken

Por exemplo, coletando dados de vídeos do Youtube

Aqui está um ponto chave. Santiago enfatizou repetidamente em seus tweets que a principal vantagem dessa solução é retornar dados estruturados. Por exemplo, se você pedir ao Claude Code para coletar a lista de produtos de uma plataforma de e-commerce, você receberá uma tabela organizada (nome do produto, preço, classificação, link), que pode ser usada diretamente para análise, muito mais útil do que o resumo textual retornado pelo WebFetch.

O modelo de cobrança da Apify é baseado em resultados, ou seja, você só paga se conseguir coletar dados com sucesso. No entanto, para usuários individuais, a cota gratuita é suficiente para fazer muitas coisas.

Método 2: Servidor Apify MCP

Se você deseja um controle mais flexível, ou se as Skills não cobrem seu cenário, há um segundo caminho: conectar-se diretamente à plataforma Apify através do MCP (Model Context Protocol).

Com o Servidor Apify MCP, o Claude Code pode chamar diretamente milhares de coletores e ferramentas de automação prontas na Apify Store.

Endereço do repositório GitHub: https://github.com/apify/apify-mcp-server

A configuração do plano MCP também não é complicada. Recomenda-se usar um servidor remoto gerenciado, pois a configuração é mais simples. Adicione ao seu arquivo de configuração MCP:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer seuAPIFYTOKEN" } } } } Se você preferir executar localmente, pode usar o método Stdio:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "seuAPIFY_TOKEN" } } } } Após a configuração, o Claude Code poderá chamar ferramentas como search-actors (procurar coletores disponíveis), call-actor (executar tarefas de coleta), get-dataset-items (obter resultados da coleta), entre outras.

As Skills e o método MCP podem ser instalados juntos, pois se complementam.

Se sua necessidade é frequente e o cenário é fixo (por exemplo, coletar preços de concorrentes uma vez por dia), usar Skills é mais conveniente, pois os fluxos de trabalho pré-configurados estão prontos para uso.

Se sua necessidade é temporária e o cenário é variável (coletar dados de mídias sociais hoje, dados públicos do governo amanhã), o MCP é mais flexível, com mais de 15.000 Atores disponíveis na Apify Store para serem chamados a qualquer momento.

Ambos os métodos têm o mesmo pré-requisito: é necessário ter uma conta Apify e um Token de API, além de um ambiente Node.js 20.6+.

É importante observar um ponto no tempo: o método de transmissão SSE do Servidor Apify MCP será descontinuado em 1º de abril de 2026, e será necessário atualizar para o método HTTP Streamable. Se você começar a configuração agora, basta usar a configuração recomendada acima, que já é o novo método.

Outras soluções que valem a pena considerarBrave Search MCP é a solução de busca recomendada oficialmente pela Anthropic, com 2000 consultas gratuitas por mês, adequada para complementar buscas diárias, mas é apenas um motor de busca e não pode realizar coleta de dados estruturados.

Playwright MCP pode fazer renderização real de navegador, lidando com páginas dinâmicas em JavaScript, sendo adequado para sites pesados em JS que o WebFetch não consegue lidar. No entanto, é mais voltado para operações automatizadas e não é tão conveniente quanto o Apify para coleta de dados em larga escala.

Bright Data MCP segue uma linha empresarial, suportando rotação de proxies e tratamento de CAPTCHA, e em 2026 lançou um novo plano gratuito (5000 solicitações MCP por mês), adequado para cenários que precisam superar mecanismos de anti-raspagem.

Essas soluções têm suas próprias ênfases e podem ser combinadas conforme necessário. Minha combinação atual é usar o WebFetch/WebSearch embutido para atender às necessidades diárias de pesquisa, enquanto o Apify Skills cuida da coleta de dados estruturados.

A capacidade de conexão do Claude Code, com ferramentas embutidas que cobrem 80% dos cenários diários, mas os 20% restantes (renderização JS, anti-raspagem, dados estruturados) são exatamente aqueles que não podem ser evitados em muitos trabalhos práticos. As Agent Skills e o MCP Server do Apify preenchem essa lacuna, e o processo de configuração não é complicado, recomendando fortemente aos alunos que têm necessidades de coleta de dados que experimentem.

Claude Code + Apify, coleta de dados da web sem barreiras

Claude Code + Apify, coleta de dados da web sem barreiras

Limitações das ferramentas de rede integradas do Claude Code

Método 1: Apify Agent Skills

Instalar esse conjunto de Skills no Claude Code também é muito fácil. A condição é ter uma conta Apify (registre-se em apify.com, há uma cota gratuita), e após obter o Token da API, você pode começar a configuração.

Por exemplo, coletando dados de vídeos do Youtube

Método 2: Servidor Apify MCP

You Might Also Like

Guia de Modificação do Claude Code Buddy: Como Obter um Pet Lendário Brilhante

Obsidian lançou Defuddle, elevando o Obsidian Web Clipper a um novo patamar

OpenAI de repente anuncia 'três em um': fusão de navegador + programação + ChatGPT, reconhecendo internamente que errou no último ano

2026, não se force mais a ser "disciplinado"! Faça estas 8 pequenas coisas e a saúde virá naturalmente

Aquelas mães que se esforçam para emagrecer e não conseguem, definitivamente caem aqui

Guia de Funcionamento Estável do Navegador AI 24 Horas