Claude Code + Apify, barrierefreies Crawlen von Daten aus dem gesamten Internet

Hallo zusammen, ich bin Lu Gong.

Wenn ihr Claude Code verwendet, insbesondere im Planmodus, habt ihr oft den Bedarf, mit dem WebSearch-Tool Webdaten zu crawlen. Aber es kommt häufig zu Fetch-Fehlern.

Das ist eigentlich ein altes Problem. Die mit Claude Code mitgelieferten WebFetch- und WebSearch-Tools sind in 80 % der Fälle ausreichend, um Informationen zu recherchieren und Studien durchzuführen. Aber wenn es um JS-gerenderte Seiten, Websites, die eine Anmeldung erfordern, oder den Bedarf an großflächiger Datensammlung geht, stoßen die integrierten Tools an ihre Grenzen.

Vor ein paar Tagen habe ich gesehen, dass Santiago (@svpino, ein bekannter Blogger im Bereich AI/ML) eine Lösung geteilt hat. Er sagte, man könne mit Claude Code Echtzeit-strukturierte Daten von jeder Website abrufen, und die Rückgabe sei eine direkt verwendbare Tabelle, nicht so eine lange Textzusammenfassung. Ich habe es ausprobiert und es funktioniert wirklich gut.

Heute möchte ich darüber sprechen, wie man Claude Code die Fähigkeit zur Datensammlung aus dem gesamten Internet verleiht, zwei Wege zur Auswahl, je nach Bedarf.

Die Schwächen der integrierten Online-Tools von Claude Code

Claude Code hat zwei integrierte Online-Tools: WebSearch für die Suche und WebFetch für das Abrufen von Seiteninhalten.

WebSearch ist recht einfach. Du gibst ihm ein Suchwort, und es gibt dir relevante Links und Titel zurück. WebFetch ist etwas komplexer. Du gibst ihm eine URL und eine Frage, und es wird den Seiteninhalt abrufen, das HTML mit der Turndown-Bibliothek in Markdown umwandeln, auf unter 100 KB kürzen und dann ein leichtes Modell (Haiku) verwenden, um dir eine Zusammenfassung zu geben.

Kurz gesagt, diese beiden Tools sind eine vereinfachte Version eines Browsers. Sie sind nutzbar, haben aber einige gravierende Mängel.

Das größte Problem ist, dass sie JS nicht rendern können. Viele Websites sind jetzt SPAs (Single Page Applications), deren Inhalte dynamisch mit JS geladen werden. X/Twitter, viele E-Commerce-Plattformen und verschiedene SaaS-Backends können mit WebFetch nicht den tatsächlichen Inhalt abrufen, sondern nur eine leere Hülle.

Die Anti-Crawling-Fähigkeit ist ebenfalls praktisch nicht vorhanden. Es unterstützt kein Proxy-Rotieren, kann CAPTCHA-Codes nicht verarbeiten, und wenn man auf eine Website mit Anti-Crawling-Mechanismen stößt, kann man nur aufgeben.

Ein weiterer Schmerzpunkt ist, dass nur Textzusammenfassungen zurückgegeben werden. Wenn du strukturierte Daten (zum Beispiel Preistabellen, Benutzerkommentarliste, Vergleich von Funktionen der Wettbewerber) erhalten möchtest, kann WebFetch das nicht leisten; es gibt dir immer nur einen komprimierten Text zurück.

Diese drei Schwächen zusammen machen Claude Code in Bezug auf Datensammlung immer unhandlich. Aber jetzt gibt es eine Lösung.

Methode 1: Apify Agent Skills

Apify ist eine etablierte Cloud-Crawling-Plattform, die seit vielen Jahren Web-Crawling und Automatisierung betreibt. Kürzlich haben sie eine Reihe von Agent Skills eingeführt, einfach gesagt, es handelt sich um eine Gruppe von vorgefertigten Skill-Paketen, die speziell darauf abzielen, AI Coding Agents beizubringen, wie man Daten sammelt.

GitHub-Repository-Adresse: https://github.com/apify/agent-skills

Diese Skills unterstützen Claude Code, Cursor, Codex, Gemini CLI und andere gängige AI-Programmierwerkzeuge. Insgesamt gibt es 12 Skills, die ein breites Spektrum abdecken.

Der Kernskill apify-ultimate-scraper ist ein universeller Crawling-Skill, der Daten von Plattformen wie Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search usw. abrufen kann. Der Schlüssel ist, dass er strukturierte Daten zurückgibt, die direkt als CSV oder JSON exportiert werden können, sofort verwendbar.

Andere Skills decken Szenarien wie Wettbewerbsanalyse, Markenmonitoring, E-Commerce-Datensammlung, KOL-Entdeckung, Lead-Generierung, Trendanalyse usw. ab. Wenn du Marktforschung oder Geschäftsdatenanalyse machst, ist dieses Set einfach fantastisch.

Die Installation dieser Skills in Claude Code ist ebenfalls sehr einfach. Voraussetzung ist ein Apify-Konto (registriere dich auf apify.com, es gibt ein kostenloses Kontingent), nach Erhalt des API-Tokens kannst du mit der Konfiguration beginnen.

Die Installation erfolgt in zwei Schritten. Zuerst füge die Marktquelle hinzu: /plugin marketplace add https://github.com/apify/agent-skills Installieren Sie die benötigten Fähigkeiten, wie den universellen Web-Crawler:

/plugin install apify-ultimate-scraper@apify-agent-skills Sie können auch die allgemeine npx-Methode verwenden, um alle Fähigkeiten auf einmal zu installieren:

npx skills add apify/agent-skills Vergessen Sie nach der Installation nicht, Ihre API-Token in der .env-Datei im Projektstammverzeichnis zu konfigurieren:

APIFYTOKEN=deintoken

Zum Beispiel das Abrufen von Youtube-Videodaten

Hier ist ein wichtiger Punkt. Santiago betont in seinen Tweets immer wieder, dass der Hauptvorteil dieses Ansatzes die Rückgabe strukturierter Daten ist. Wenn Sie Claude Code bitten, eine Produktliste von einer E-Commerce-Plattform abzurufen, erhalten Sie eine aufbereitete Tabelle (Produktname, Preis, Bewertung, Link), die direkt für Analysen verwendet werden kann, was viel praktischer ist als die von WebFetch zurückgegebenen Textzusammenfassungen.

Das Abrechnungsmodell von Apify basiert auf den Ergebnissen, das heißt, es wird nur Geld abgezogen, wenn die Daten erfolgreich abgerufen werden. Für Privatnutzer ist das kostenlose Kontingent jedoch ausreichend, um viele Dinge zu erledigen.

Methode zwei: Apify MCP Server

Wenn Sie eine flexiblere Kontrolle wünschen oder wenn Ihre Szenarien nicht von den Skills abgedeckt sind, gibt es einen zweiten Weg: den direkten Zugang zur Apify-Plattform über MCP (Model Context Protocol).

Über den Apify MCP Server kann Claude Code direkt auf Tausende von fertigen Crawlern und Automatisierungstools im Apify Store zugreifen.

GitHub-Repository-Adresse: https://github.com/apify/apify-mcp-server

Die Konfiguration des MCP-Ansatzes ist ebenfalls nicht kompliziert. Es wird empfohlen, die gehostete Remote-Server-Methode zu verwenden, da die Konfiguration am einfachsten ist. Fügen Sie in Ihrer MCP-Konfigurationsdatei Folgendes hinzu:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer deinAPIFYTOKEN" } } } } Wenn Sie es bevorzugen, lokal zu arbeiten, können Sie die Stdio-Methode verwenden:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "deinAPIFY_TOKEN" } } } } Nach der Konfiguration kann Claude Code Tools wie search-actors (verfügbare Crawler suchen), call-actor (Crawler-Aufgaben ausführen), get-dataset-items (Abrufen der Abrufresultate) usw. verwenden.

Sowohl Skills als auch MCP-Methoden können installiert werden, da sie sich gegenseitig ergänzen.

Wenn Ihre Anforderungen hochfrequent und festgelegt sind (zum Beispiel jeden Tag die Preise von Wettbewerbsprodukten abrufen), ist die Verwendung von Skills einfacher, da die vorgefertigten Workflows sofort einsatzbereit sind.

Wenn Ihre Anforderungen vorübergehend und variabel sind (heute soziale Medien abrufen, morgen öffentliche Regierungsdaten abrufen), ist MCP flexibler, da im Apify Store über 15.000 Actors jederzeit aufgerufen werden können.

Die Voraussetzungen für beide Methoden sind gleich: Sie benötigen ein Apify-Konto und einen API-Token sowie eine Node.js 20.6+-Umgebung.

Achten Sie unbedingt auf einen Zeitrahmen: Die SSE-Übertragungsmethode des Apify MCP Servers wird am 1. April 2026 eingestellt, und zu diesem Zeitpunkt muss auf die Streamable HTTP-Methode umgestellt werden. Wenn Sie jetzt mit der Konfiguration beginnen, verwenden Sie einfach die oben empfohlene Konfiguration, da dies bereits die neue Methode ist.

Weitere bemerkenswerte AnsätzeBrave Search MCP ist die von Anthropic offiziell empfohlene Suchlösung, die monatlich 2000 kostenlose Abfragen bietet. Sie eignet sich gut als Ergänzung für die tägliche Suche, ist jedoch nur eine Suchmaschine und kann keine strukturierten Daten erfassen.

Playwright MCP kann echtes Browser-Rendering durchführen und ist in der Lage, JavaScript-dynamische Seiten zu verarbeiten. Es eignet sich für solche Websites, bei denen WebFetch nicht zurechtkommt. Allerdings ist es eher auf automatisierte Operationen ausgerichtet und nicht so bequem wie Apify für die großflächige Datenerfassung.

Bright Data MCP verfolgt einen unternehmensgerechten Ansatz, unterstützt Proxy-Rotation und CAPTCHA-Verarbeitung. Im Jahr 2026 wurde ein neues kostenloses Paket eingeführt (monatlich 5000 MCP-Anfragen), das sich für Szenarien eignet, in denen die Umgehung von Anti-Scraping-Mechanismen erforderlich ist.

Diese Lösungen haben jeweils ihre Schwerpunkte und können je nach Bedarf kombiniert werden. Meine derzeitige Kombination besteht aus dem integrierten WebFetch/WebSearch zur Bearbeitung der täglichen Informationsbedarfe und Apify Skills zur Erfassung strukturierter Daten.

Die Netzwerkfähigkeiten von Claude Code und die integrierten Tools decken 80% der alltäglichen Szenarien ab, aber die verbleibenden 20% (JS-Rendering, Anti-Scraping, strukturierte Daten) sind genau die Bereiche, die in vielen praktischen Arbeiten unvermeidlich sind. Die Agent Skills und der MCP Server von Apify schließen diese Lücke, und der Konfigurationsprozess ist ebenfalls nicht kompliziert. Ich empfehle dringend, dass Studenten mit Datenanforderungen es ausprobieren.

Claude Code + Apify, barrierefreies Crawlen von Daten aus dem gesamten Internet

Claude Code + Apify, barrierefreies Crawlen von Daten aus dem gesamten Internet

Die Schwächen der integrierten Online-Tools von Claude Code

Methode 1: Apify Agent Skills

Die Installation dieser Skills in Claude Code ist ebenfalls sehr einfach. Voraussetzung ist ein Apify-Konto (registriere dich auf apify.com, es gibt ein kostenloses Kontingent), nach Erhalt des API-Tokens kannst du mit der Konfiguration beginnen.

Zum Beispiel das Abrufen von Youtube-Videodaten

Methode zwei: Apify MCP Server

You Might Also Like

Claude Code Buddy Änderungsanleitung: Wie man ein schimmerndes legendäres Haustier erhält

Obsidian hat Defuddle eingeführt und den Obsidian Web Clipper auf ein neues Niveau gehoben

OpenAI kündigt plötzlich "Drei-in-eins" an: Fusion von Browser + Programmierung + ChatGPT, interne Anerkennung von Fehlern im vergangenen Jahr

2026, sich nicht mehr selbst zur 'Disziplin' zwingen! Machen Sie diese 8 kleinen Dinge gut, Gesundheit kommt von ganz allein

Die Mütter, die sich bemühen abzunehmen und es nicht schaffen, scheitern definitiv hier

AI Browser 24 Stunden Stabilitätsleitfaden