Claude Code + Apify, barrierefreies Crawlen von Daten aus dem gesamten Internet
Claude Code + Apify, barrierefreies Crawlen von Daten aus dem gesamten Internet
Hallo zusammen, ich bin Lu Gong.
Wenn ihr Claude Code verwendet, insbesondere im Planmodus, habt ihr oft den Bedarf, mit dem WebSearch-Tool Webdaten zu crawlen. Aber es kommt häufig zu Fetch-Fehlern.
Das ist eigentlich ein altes Problem. Die mit Claude Code mitgelieferten WebFetch- und WebSearch-Tools sind in 80 % der Fälle ausreichend, um Informationen zu recherchieren und Studien durchzuführen. Aber wenn es um JS-gerenderte Seiten, Websites, die eine Anmeldung erfordern, oder den Bedarf an großflächiger Datensammlung geht, stoßen die integrierten Tools an ihre Grenzen.
Vor ein paar Tagen habe ich gesehen, dass Santiago (@svpino, ein bekannter Blogger im Bereich AI/ML) eine Lösung geteilt hat. Er sagte, man könne mit Claude Code Echtzeit-strukturierte Daten von jeder Website abrufen, und die Rückgabe sei eine direkt verwendbare Tabelle, nicht so eine lange Textzusammenfassung. Ich habe es ausprobiert und es funktioniert wirklich gut.
Heute möchte ich darüber sprechen, wie man Claude Code die Fähigkeit zur Datensammlung aus dem gesamten Internet verleiht, zwei Wege zur Auswahl, je nach Bedarf.
Die Schwächen der integrierten Online-Tools von Claude Code
Claude Code hat zwei integrierte Online-Tools: WebSearch für die Suche und WebFetch für das Abrufen von Seiteninhalten.
WebSearch ist recht einfach. Du gibst ihm ein Suchwort, und es gibt dir relevante Links und Titel zurück. WebFetch ist etwas komplexer. Du gibst ihm eine URL und eine Frage, und es wird den Seiteninhalt abrufen, das HTML mit der Turndown-Bibliothek in Markdown umwandeln, auf unter 100 KB kürzen und dann ein leichtes Modell (Haiku) verwenden, um dir eine Zusammenfassung zu geben.
Kurz gesagt, diese beiden Tools sind eine vereinfachte Version eines Browsers. Sie sind nutzbar, haben aber einige gravierende Mängel.
Das größte Problem ist, dass sie JS nicht rendern können. Viele Websites sind jetzt SPAs (Single Page Applications), deren Inhalte dynamisch mit JS geladen werden. X/Twitter, viele E-Commerce-Plattformen und verschiedene SaaS-Backends können mit WebFetch nicht den tatsächlichen Inhalt abrufen, sondern nur eine leere Hülle.
Die Anti-Crawling-Fähigkeit ist ebenfalls praktisch nicht vorhanden. Es unterstützt kein Proxy-Rotieren, kann CAPTCHA-Codes nicht verarbeiten, und wenn man auf eine Website mit Anti-Crawling-Mechanismen stößt, kann man nur aufgeben.
Ein weiterer Schmerzpunkt ist, dass nur Textzusammenfassungen zurückgegeben werden. Wenn du strukturierte Daten (zum Beispiel Preistabellen, Benutzerkommentarliste, Vergleich von Funktionen der Wettbewerber) erhalten möchtest, kann WebFetch das nicht leisten; es gibt dir immer nur einen komprimierten Text zurück.
Diese drei Schwächen zusammen machen Claude Code in Bezug auf Datensammlung immer unhandlich. Aber jetzt gibt es eine Lösung.
Methode 1: Apify Agent Skills
Apify ist eine etablierte Cloud-Crawling-Plattform, die seit vielen Jahren Web-Crawling und Automatisierung betreibt. Kürzlich haben sie eine Reihe von Agent Skills eingeführt, einfach gesagt, es handelt sich um eine Gruppe von vorgefertigten Skill-Paketen, die speziell darauf abzielen, AI Coding Agents beizubringen, wie man Daten sammelt.
GitHub-Repository-Adresse: https://github.com/apify/agent-skills
Diese Skills unterstützen Claude Code, Cursor, Codex, Gemini CLI und andere gängige AI-Programmierwerkzeuge. Insgesamt gibt es 12 Skills, die ein breites Spektrum abdecken.
Der Kernskill apify-ultimate-scraper ist ein universeller Crawling-Skill, der Daten von Plattformen wie Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search usw. abrufen kann. Der Schlüssel ist, dass er strukturierte Daten zurückgibt, die direkt als CSV oder JSON exportiert werden können, sofort verwendbar.
Andere Skills decken Szenarien wie Wettbewerbsanalyse, Markenmonitoring, E-Commerce-Datensammlung, KOL-Entdeckung, Lead-Generierung, Trendanalyse usw. ab. Wenn du Marktforschung oder Geschäftsdatenanalyse machst, ist dieses Set einfach fantastisch.
Die Installation dieser Skills in Claude Code ist ebenfalls sehr einfach. Voraussetzung ist ein Apify-Konto (registriere dich auf apify.com, es gibt ein kostenloses Kontingent), nach Erhalt des API-Tokens kannst du mit der Konfiguration beginnen.
Die Installation erfolgt in zwei Schritten. Zuerst füge die Marktquelle hinzu: /plugin marketplace add https://github.com/apify/agent-skills Installieren Sie die benötigten Fähigkeiten, wie den universellen Web-Crawler:
/plugin install apify-ultimate-scraper@apify-agent-skills Sie können auch die allgemeine npx-Methode verwenden, um alle Fähigkeiten auf einmal zu installieren:
npx skills add apify/agent-skills Vergessen Sie nach der Installation nicht, Ihre API-Token in der .env-Datei im Projektstammverzeichnis zu konfigurieren:
APIFYTOKEN=deintoken
Zum Beispiel das Abrufen von Youtube-Videodaten
Hier ist ein wichtiger Punkt. Santiago betont in seinen Tweets immer wieder, dass der Hauptvorteil dieses Ansatzes die Rückgabe strukturierter Daten ist. Wenn Sie Claude Code bitten, eine Produktliste von einer E-Commerce-Plattform abzurufen, erhalten Sie eine aufbereitete Tabelle (Produktname, Preis, Bewertung, Link), die direkt für Analysen verwendet werden kann, was viel praktischer ist als die von WebFetch zurückgegebenen Textzusammenfassungen.
Das Abrechnungsmodell von Apify basiert auf den Ergebnissen, das heißt, es wird nur Geld abgezogen, wenn die Daten erfolgreich abgerufen werden. Für Privatnutzer ist das kostenlose Kontingent jedoch ausreichend, um viele Dinge zu erledigen.
Methode zwei: Apify MCP Server
Wenn Sie eine flexiblere Kontrolle wünschen oder wenn Ihre Szenarien nicht von den Skills abgedeckt sind, gibt es einen zweiten Weg: den direkten Zugang zur Apify-Plattform über MCP (Model Context Protocol).
Über den Apify MCP Server kann Claude Code direkt auf Tausende von fertigen Crawlern und Automatisierungstools im Apify Store zugreifen.
GitHub-Repository-Adresse: https://github.com/apify/apify-mcp-server
Die Konfiguration des MCP-Ansatzes ist ebenfalls nicht kompliziert. Es wird empfohlen, die gehostete Remote-Server-Methode zu verwenden, da die Konfiguration am einfachsten ist. Fügen Sie in Ihrer MCP-Konfigurationsdatei Folgendes hinzu:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer deinAPIFYTOKEN" } } } } Wenn Sie es bevorzugen, lokal zu arbeiten, können Sie die Stdio-Methode verwenden:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "deinAPIFY_TOKEN" } } } } Nach der Konfiguration kann Claude Code Tools wie search-actors (verfügbare Crawler suchen), call-actor (Crawler-Aufgaben ausführen), get-dataset-items (Abrufen der Abrufresultate) usw. verwenden.
Sowohl Skills als auch MCP-Methoden können installiert werden, da sie sich gegenseitig ergänzen.
Wenn Ihre Anforderungen hochfrequent und festgelegt sind (zum Beispiel jeden Tag die Preise von Wettbewerbsprodukten abrufen), ist die Verwendung von Skills einfacher, da die vorgefertigten Workflows sofort einsatzbereit sind.
Wenn Ihre Anforderungen vorübergehend und variabel sind (heute soziale Medien abrufen, morgen öffentliche Regierungsdaten abrufen), ist MCP flexibler, da im Apify Store über 15.000 Actors jederzeit aufgerufen werden können.
Die Voraussetzungen für beide Methoden sind gleich: Sie benötigen ein Apify-Konto und einen API-Token sowie eine Node.js 20.6+-Umgebung.
Achten Sie unbedingt auf einen Zeitrahmen: Die SSE-Übertragungsmethode des Apify MCP Servers wird am 1. April 2026 eingestellt, und zu diesem Zeitpunkt muss auf die Streamable HTTP-Methode umgestellt werden. Wenn Sie jetzt mit der Konfiguration beginnen, verwenden Sie einfach die oben empfohlene Konfiguration, da dies bereits die neue Methode ist.

