Claude Code + Apify, collecte de données sur le web sans barrières

3/3/2026
8 min read

Claude Code + Apify, collecte de données sur le web sans barrières

Claude Code + ApifyBonjour à tous, je suis Lu Gong.

Lorsque vous utilisez Claude Code, en particulier en mode Plan, vous avez souvent besoin d'utiliser l'outil WebSearch pour extraire des données de pages web. Cependant, il arrive fréquemment de rencontrer des erreurs de récupération.

C'est en fait un vieux problème. Avec les outils WebFetch et WebSearch intégrés à Claude Code, faire des recherches et des études est suffisant dans 80 % des cas, mais dès que vous êtes confronté à des pages rendues par JS, à des sites nécessitant une connexion, ou à des besoins de collecte de données à grande échelle, les outils intégrés ne tiennent pas.

Il y a quelques jours, j'ai vu Santiago (@svpino, un blogueur bien connu dans le domaine de l'IA/ML) partager une solution. Il a dit qu'on pouvait utiliser Claude Code pour extraire des données structurées en temps réel de n'importe quel site, et que le retour était sous forme de tableau directement utilisable, pas un long résumé de texte. J'ai essayé et c'est effectivement très utile.

Aujourd'hui, je vais parler de la manière d'ajouter la capacité de collecte de données à Claude Code, avec deux chemins à choisir selon vos besoins.

Les limites des outils de connexion intégrés de Claude Code

Claude Code dispose de deux outils de connexion : WebSearch pour la recherche et WebFetch pour extraire le contenu des pages.

WebSearch est assez simple, vous lui donnez un mot-clé de recherche et il retourne des liens et des titres pertinents. WebFetch est un peu plus complexe, vous lui donnez une URL et une question, il va extraire le contenu de la page, convertir le HTML en Markdown via la bibliothèque Turndown, tronquer à moins de 100 Ko, puis utiliser un modèle léger (Haiku) pour vous résumer.

En d'autres termes, ces deux outils sont une version simplifiée d'un navigateur. Ils fonctionnent, mais présentent plusieurs défauts.

Le plus gros problème est qu'ils ne peuvent pas rendre le JS. De nombreux sites sont des SPA (applications à page unique), et le contenu est chargé dynamiquement par JS. X/Twitter, de nombreuses plateformes de commerce électronique, divers backends SaaS, WebFetch ne peut pas récupérer le contenu réel, il ne peut obtenir qu'une coquille vide.

La capacité de lutte contre le scraping est également pratiquement nulle. Il ne prend pas en charge la rotation des proxies, ne peut pas gérer les CAPTCHA, et face à des sites avec des mécanismes anti-scraping, il ne peut que capituler.

Un autre point douloureux est qu'il ne retourne que des résumés textuels. Si vous souhaitez obtenir des données structurées (comme des tableaux de prix de produits, des listes d'avis d'utilisateurs, des comparaisons de fonctionnalités de concurrents), WebFetch ne peut pas le faire, il vous donne toujours un texte compressé.

Ces trois limites réunies font que Claude Code manque toujours de convivialité en matière de collecte de données. Mais maintenant, il existe une solution.

Méthode 1 : Apify Agent Skills

Apify est une plateforme de scraping cloud bien établie, active dans la collecte de données et l'automatisation depuis de nombreuses années. Récemment, ils ont lancé un ensemble de compétences appelées Agent Skills, qui est en gros un ensemble de paquets de compétences préfabriquées, spécialement conçues pour enseigner à l'Agent de codage AI comment effectuer la collecte de données.

Adresse du dépôt GitHub : https://github.com/apify/agent-skills

Cet ensemble de compétences prend en charge Claude Code, Cursor, Codex, Gemini CLI et d'autres outils de programmation AI populaires. Il y a actuellement 12 compétences, couvrant un large éventail de cas d'utilisation.

La compétence principale, apify-ultimate-scraper, est une compétence de scraping polyvalente qui peut extraire des données de plateformes telles qu'Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search, etc. L'important est qu'elle retourne des données structurées, pouvant être directement exportées en CSV ou JSON, prêtes à l'emploi.

Les autres compétences couvrent des scénarios tels que l'analyse de la concurrence, la surveillance de la réputation de la marque, la collecte de données de commerce électronique, la découverte de KOL, l'acquisition de prospects, l'analyse des tendances, etc. Si vous faites des études de marché ou des analyses de données commerciales, cet ensemble est tout simplement incroyable.

Installer cet ensemble de compétences dans Claude Code est également très pratique. La condition préalable est d'avoir un compte Apify (inscrivez-vous sur apify.com, il y a un quota gratuit), une fois que vous avez obtenu le token API, vous pouvez commencer à configurer.

L'installation se fait en deux étapes. D'abord, ajoutez la source de marché : /plugin marketplace add https://github.com/apify/agent-skills puis installez les compétences dont vous avez besoin, comme le scraper universel :

/plugin install apify-ultimate-scraper@apify-agent-skills vous pouvez également utiliser la méthode npx générale pour installer toutes les compétences en une seule fois :

npx skills add apify/agent-skills après l'installation, n'oubliez pas de configurer votre token API dans le fichier .env à la racine du projet :

APIFYTOKEN=tontoken

Par exemple, pour extraire des données vidéo de Youtube

Voici un point clé. Santiago a souligné à plusieurs reprises dans ses tweets que l'avantage principal de cette solution est de retourner des données structurées. Par exemple, si vous demandez à Claude Code d'extraire la liste des produits d'une plateforme de commerce électronique, vous obtiendrez un tableau bien organisé (nom du produit, prix, évaluation, lien), ce qui est beaucoup plus utile pour l'analyse que le résumé textuel retourné par WebFetch.

Le modèle de tarification d'Apify est basé sur les résultats, ce qui signifie que vous ne payez que si vous parvenez à extraire des données. Cependant, pour les utilisateurs individuels, le quota gratuit est suffisant pour faire pas mal de choses.

Méthode 2 : Serveur Apify MCP

Si vous souhaitez un contrôle plus flexible, ou si les compétences ne couvrent pas votre scénario, il existe une deuxième option : se connecter directement à la plateforme Apify via MCP (Model Context Protocol).

Avec le serveur Apify MCP, Claude Code peut directement appeler des milliers de scrapers et d'outils d'automatisation prêts à l'emploi dans l'Apify Store.

Adresse du dépôt GitHub : https://github.com/apify/apify-mcp-server

La configuration de la solution MCP n'est pas compliquée. Il est recommandé d'utiliser un serveur distant géré, car c'est le plus simple à configurer. Ajoutez ceci à votre fichier de configuration MCP :

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer tonAPIFYTOKEN" } } } } Si vous préférez exécuter localement, vous pouvez utiliser la méthode Stdio :

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "tonAPIFY_TOKEN" } } } }` Une fois configuré, Claude Code pourra appeler des outils tels que search-actors (rechercher des scrapers disponibles), call-actor (exécuter une tâche de scraping), get-dataset-items (obtenir les résultats de scraping), etc.

Les méthodes Skills et MCP peuvent toutes deux être installées, elles peuvent se compléter.

Si vos besoins sont fréquents et vos scénarios fixes (par exemple, extraire les prix des concurrents une fois par jour), utiliser Skills est plus simple, car les flux de travail préconfigurés sont prêts à l'emploi.

Si vos besoins sont temporaires et vos scénarios variables (aujourd'hui extraire des données des réseaux sociaux, demain extraire des données publiques du gouvernement), utiliser MCP est plus flexible, car l'Apify Store propose plus de 15 000 acteurs que vous pouvez appeler à tout moment.

Les deux méthodes ont la même exigence : un compte Apify et un token API, ainsi qu'un environnement Node.js 20.6+.

Il est important de noter un point temporel : le mode de transmission SSE du serveur Apify MCP sera abandonné le 1er avril 2026, et il sera nécessaire de passer à la méthode HTTP Streamable. Si vous commencez à configurer maintenant, utilisez directement la configuration recommandée ci-dessus, qui est déjà la nouvelle méthode.

Autres solutions intéressantesEn dehors d'Apify, il y a plusieurs solutions de recherche MCP qui valent la peine d'être connues.

Brave Search MCP est la solution de recherche recommandée par Anthropic, offrant 2000 requêtes gratuites par mois, idéale pour compléter les recherches quotidiennes, mais c'est seulement un moteur de recherche et ne peut pas effectuer de collecte de données structurées.

Playwright MCP peut effectuer un véritable rendu de navigateur, capable de gérer des pages dynamiques JavaScript, ce qui est adapté pour les sites lourds en JS que WebFetch ne peut pas gérer. Cependant, il est plus orienté vers l'automatisation et n'est pas aussi pratique qu'Apify pour la collecte de données à grande échelle.

Bright Data MCP adopte une approche de niveau entreprise, prenant en charge la rotation des proxies et le traitement des CAPTCHA. En 2026, ils ont lancé un nouveau plan gratuit (5000 requêtes MCP par mois), adapté aux scénarios nécessitant de contourner les mécanismes anti-scraping.

Ces différentes solutions ont chacune leurs points forts et peuvent être combinées selon les besoins. Ma combinaison actuelle est d'utiliser WebFetch/WebSearch intégré pour les besoins de recherche quotidienne, et Apify Skills pour la collecte de données structurées.

La capacité de mise en réseau de Claude Code, avec des outils intégrés, peut couvrir 80 % des scénarios quotidiens, mais les 20 % restants (rendu JS, anti-scraping, données structurées) sont précisément ceux que l'on ne peut pas éviter dans de nombreux travaux pratiques. Les Agent Skills et le serveur MCP d'Apify comblent cette lacune, et le processus de configuration n'est pas compliqué. Je recommande vivement aux personnes ayant des besoins de collecte de données d'essayer.

Published in Technology

You Might Also Like