Claude Code + Apify, collecte de données sur le web sans barrières

3/3/2026
8 min read

Claude Code + Apify, collecte de données sur le web sans barrières\n\nClaude Code + ApifyBonjour à tous, je suis Lu Gong.\n\nLorsque vous utilisez Claude Code, en particulier en mode Plan, vous avez souvent besoin d'utiliser l'outil WebSearch pour extraire des données de pages web. Cependant, vous rencontrez souvent des erreurs de récupération.\n\nC'est en fait un vieux problème. Avec les outils WebFetch et WebSearch intégrés à Claude Code, pour rechercher des informations et faire des études, cela suffit dans 80 % des cas, mais dès que vous êtes confronté à des pages rendues par JS, à des sites nécessitant une connexion, ou à des besoins de collecte de données à grande échelle, les outils intégrés ne tiennent pas.\n\nIl y a quelques jours, j'ai vu Santiago (@svpino, un blogueur bien connu dans le domaine de l'IA/ML) partager une solution. Il a dit qu'on pouvait utiliser Claude Code pour extraire des données structurées en temps réel de n'importe quel site, et que le retour était sous forme de tableaux directement exploitables, pas de longs résumés de texte. J'ai essayé, et c'est effectivement très utile.\n\nAujourd'hui, je vais parler de la façon d'ajouter la capacité de collecte de données sur le web à Claude Code, avec deux chemins à choisir selon vos besoins.\n\n## Les limites des outils de connexion intégrés de Claude Code\n\nClaude Code dispose de deux outils de connexion : WebSearch pour la recherche et WebFetch pour extraire le contenu des pages.\n\nWebSearch est assez simple, vous lui donnez un mot-clé de recherche, il retourne des liens et des titres pertinents. WebFetch est un peu plus complexe, vous lui donnez une URL et une question, il va extraire le contenu de la page, convertir le HTML en Markdown via la bibliothèque Turndown, tronquer à moins de 100 Ko, puis utiliser un modèle léger (Haiku) pour vous résumer.\n\nEn d'autres termes, ces deux outils sont une version simplifiée d'un navigateur. Ils peuvent être utilisés, mais présentent plusieurs défauts majeurs.\n\nLe plus gros problème est qu'ils ne peuvent pas rendre le JS. De nombreux sites sont des SPA (applications à page unique), où le contenu est chargé dynamiquement par JS. X/Twitter, de nombreuses plateformes de commerce électronique, divers backends SaaS, WebFetch ne peut pas récupérer le contenu réel, il ne peut obtenir qu'une coquille vide.\n\nLa capacité de lutte contre le scraping est également pratiquement nulle. Il ne prend pas en charge la rotation des proxies, ne peut pas traiter les CAPTCHA, et lorsqu'il rencontre un site avec des mécanismes anti-scraping, il ne peut que s'arrêter.\n\nUn autre point douloureux est qu'il ne retourne que des résumés textuels. Si vous souhaitez obtenir des données structurées (comme des tableaux de prix de produits, des listes d'avis d'utilisateurs, des comparaisons de fonctionnalités de produits concurrents), WebFetch ne peut pas le faire, il vous donne toujours un texte compressé.\n\nCes trois limites réunies font que Claude Code manque toujours de convivialité en matière de collecte de données. Mais maintenant, il existe une solution.\n\n## Méthode 1 : Apify Agent Skills\n\nApify est une plateforme de scraping cloud bien établie, qui fait de la collecte de pages web et de l'automatisation depuis de nombreuses années. Récemment, ils ont lancé un ensemble de compétences appelées Agent Skills, qui sont en gros un ensemble de paquets de compétences préfabriqués, spécialement conçus pour enseigner à l'Agent de codage IA comment effectuer la collecte de données.\n\nAdresse du dépôt GitHub : https://github.com/apify/agent-skills\n\nCet ensemble de compétences prend en charge Claude Code, Cursor, Codex, Gemini CLI et d'autres outils de programmation IA populaires. Actuellement, il y a un total de 12 compétences, couvrant un large éventail.\n\nLa compétence principale, apify-ultimate-scraper, est une compétence de scraping universelle qui peut extraire des données de plateformes telles qu'Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, etc. L'important est qu'elle retourne des données structurées, pouvant être directement exportées en CSV ou JSON, prêtes à l'emploi.\n\nLes autres compétences couvrent des scénarios tels que l'analyse de la concurrence, la surveillance de la réputation de la marque, la collecte de données de commerce électronique, la découverte de KOL, l'acquisition de prospects, l'analyse des tendances, etc. Si vous faites des études de marché ou des analyses de données commerciales, cet ensemble est tout simplement incroyable.\n\n### Installer cet ensemble de compétences dans Claude Code est également très pratique. La condition préalable est d'avoir un compte Apify (inscrivez-vous sur apify.com, il y a un quota gratuit), une fois que vous avez obtenu le token API, vous pouvez commencer à configurer.\n\nL'installation se fait en deux étapes. D'abord, ajoutez la source de marché :/plugin marketplace add https://github.com/apify/agent-skills" puis installez les compétences dont vous avez besoin, comme le scraper universel :

/plugin install apify-ultimate-scraper@apify-agent-skills vous pouvez également utiliser la méthode npx générale pour installer toutes les compétences en une fois :

npx skills add apify/agent-skills après l'installation, n'oubliez pas de configurer votre token API dans le fichier .env à la racine du projet :

APIFYTOKEN=tontoken

Par exemple, récupérer les données des vidéos Youtube

Voici un point clé. Santiago souligne à plusieurs reprises dans ses tweets que l'avantage principal de cette solution est de retourner des données structurées. Par exemple, si vous demandez à Claude Code de récupérer la liste des produits d'une plateforme de commerce électronique, vous obtiendrez un tableau organisé (nom du produit, prix, évaluation, lien), ce qui est beaucoup plus utile pour l'analyse que le résumé textuel retourné par WebFetch.

Le modèle de tarification d'Apify est basé sur les résultats, c'est-à-dire que vous ne payez que si vous parvenez à récupérer des données. Cependant, pour les utilisateurs individuels, le quota gratuit est suffisant pour faire pas mal de choses.

Méthode 2 : Apify MCP Server

Si vous souhaitez un contrôle plus flexible, ou si les compétences ne couvrent pas votre scénario, il existe une deuxième option : se connecter directement à la plateforme Apify via MCP (Model Context Protocol).

Avec Apify MCP Server, Claude Code peut directement appeler des milliers de scrapers et d'outils d'automatisation prêts à l'emploi dans Apify Store.

Adresse du dépôt GitHub : https://github.com/apify/apify-mcp-server

La configuration de la solution MCP n'est pas compliquée. Il est recommandé d'utiliser un serveur distant géré, la configuration est la plus simple. Ajoutez à votre fichier de configuration MCP :

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer tonAPIFYTOKEN" } } } } Si vous préférez exécuter localement, vous pouvez utiliser la méthode Stdio :

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "tonAPIFY_TOKEN" } } } } Une fois configuré, Claude Code pourra appeler des outils tels que search-actors (rechercher des scrapers disponibles), call-actor (exécuter une tâche de scraping), get-dataset-items (obtenir les résultats de scraping), etc.

Les méthodes Skills et MCP peuvent être installées toutes les deux, elles peuvent se compléter.

Si vos besoins sont fréquents et vos scénarios fixes (par exemple, récupérer le prix des concurrents une fois par jour), utiliser Skills est plus simple, les workflows préconfigurés sont prêts à l'emploi.

Si vos besoins sont temporaires et vos scénarios variables (aujourd'hui récupérer des données sur les réseaux sociaux, demain récupérer des données publiques du gouvernement), utiliser MCP est plus flexible, Apify Store propose plus de 15000 Acteurs que vous pouvez appeler à tout moment.

Les deux méthodes ont les mêmes prérequis : un compte Apify et un token API, et un environnement Node.js 20.6+.

Il est important de noter un point temporel : la méthode de transmission SSE d'Apify MCP Server sera abandonnée le 1er avril 2026, à ce moment-là, il faudra passer à la méthode HTTP Streamable. Si vous commencez à configurer maintenant, utilisez directement la configuration recommandée ci-dessus, c'est déjà la nouvelle méthode.

Autres solutions à surveillerBrave Search MCP est la solution de recherche recommandée par Anthropic, offrant 2000 requêtes gratuites par mois, adaptée comme complément pour les recherches quotidiennes, mais c'est seulement un moteur de recherche et ne peut pas effectuer de collecte de données structurées.

Playwright MCP peut réaliser un véritable rendu de navigateur, capable de gérer des pages dynamiques JavaScript, adapté pour les sites lourds en JS que WebFetch ne peut pas traiter. Cependant, il est plus orienté vers l'automatisation et n'est pas aussi pratique qu'Apify pour la collecte de données à grande échelle.

Bright Data MCP adopte une approche de niveau entreprise, prenant en charge la rotation des proxies et le traitement des CAPTCHA, et a lancé en 2026 un nouveau plan gratuit (5000 requêtes MCP par mois), adapté aux scénarios nécessitant de contourner les mécanismes anti-scraping.

Ces différentes solutions ont chacune leurs points forts et peuvent être combinées selon les besoins. Ma combinaison actuelle utilise WebFetch/WebSearch intégré pour les besoins de recherche quotidienne, et Apify Skills pour la collecte de données structurées.

La capacité de mise en réseau de Claude Code, avec des outils intégrés, peut couvrir 80 % des scénarios quotidiens, mais les 20 % restants (rendu JS, anti-scraping, données structurées) sont précisément ceux que l'on ne peut pas éviter dans de nombreux travaux pratiques. Les Agent Skills et le serveur MCP d'Apify comblent cette lacune, et le processus de configuration n'est pas compliqué, je recommande vivement aux étudiants ayant des besoins de collecte de données de l'essayer.

Published in Technology

You Might Also Like