Claude Code + Apify, bezbariérové shromažďování dat z celého internetu
Claude Code + Apify, bezbariérové shromažďování dat z celého internetu
Ahoj všichni, jsem Lu Gong.
Když používáte Claude Code, zejména v režimu Plán, často máte potřebu využít nástroj WebSearch k shromažďování dat z webových stránek. Ale často se setkáváte s problémem Fetch error.
To je vlastně starý problém. Nástroje WebFetch a WebSearch, které jsou součástí Claude Code, jsou dostatečné pro 80 % scénářů, když hledáte informace nebo provádíte výzkum, ale jakmile narazíte na stránky s JS renderováním, stránky, které vyžadují přihlášení, nebo potřebu shromažďování velkého množství dat, vestavěné nástroje selhávají.
Před pár dny jsem viděl, jak Santiago (@svpino, známý blogger v oblasti AI/ML) sdílel řešení, které říkal, že můžete použít Claude Code k získání strukturovaných dat v reálném čase z jakékoli webové stránky, a vrátí vám to tabulku, která je přímo použitelná, ne jen dlouhý textový souhrn. Zkusil jsem to a opravdu to funguje skvěle.
Dnes si povíme, jak přidat schopnost shromažďování dat z celého internetu do Claude Code, existují dvě cesty, vyberte si podle potřeby.
Nedostatky vestavěných nástrojů pro připojení v Claude Code
Claude Code má dva vestavěné nástroje pro připojení: WebSearch, který se stará o vyhledávání, a WebFetch, který se stará o shromažďování obsahu stránek.
WebSearch je poměrně jednoduchý, dáte mu hledaný výraz a on vrátí relevantní odkazy a názvy. WebFetch je o něco složitější, dáte mu URL a otázku, on shromáždí obsah stránky, převede HTML na Markdown pomocí knihovny Turndown, zkrátí to na méně než 100 KB a pak vám pomůže shrnout to pomocí lehkého modelu (Haiku).
Jednoduše řečeno, tyto dva nástroje jsou jako zjednodušený prohlížeč. Fungují, ale mají několik vážných nedostatků.
Největším problémem je, že neumí renderovat JS. V současnosti je mnoho webových stránek SPA (jednostránkové aplikace), jejichž obsah se dynamicky načítá pomocí JS. X/Twitter, mnoho e-commerce platforem, různé SaaS backendy, WebFetch nedokáže shromáždit skutečný obsah, může získat pouze prázdný rámec.
Také nemá žádnou schopnost proti škrabání. Nepodporuje rotaci proxy, neumí zpracovávat CAPTCHA, a když narazí na webové stránky s mechanismy proti škrabání, nemůže nic dělat.
Dalším problémem je, že vrací pouze textové shrnutí. Pokud chcete získat strukturovaná data (například tabulku cen produktů, seznam uživatelských recenzí, srovnání funkcí konkurence), WebFetch to nedokáže, vždy vám dá pouze zkrácený text.
Tyto tři nedostatky dohromady způsobují, že Claude Code postrádá uživatelskou přívětivost v oblasti shromažďování dat. Ale nyní existuje řešení.
Metoda 1: Apify Agent Skills
Apify je zavedená cloudová platforma pro škrabání webu, která se zabývá shromažďováním a automatizací webových dat již mnoho let. Nedávno představili sadu Agent Skills, což je soubor předpřipravených dovedností, které učí AI Coding Agenta, jak provádět shromažďování dat.
Adresa GitHub repozitáře: https://github.com/apify/agent-skills
Tato sada Skills podporuje Claude Code, Cursor, Codex, Gemini CLI a další populární AI programovací nástroje. V současnosti obsahuje celkem 12 dovedností, které pokrývají široké spektrum.
Hlavní dovednost apify-ultimate-scraper je univerzální škrabací dovednost, která dokáže shromažďovat data z platforem jako Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search atd. Klíčové je, že vrací strukturovaná data, která lze přímo exportovat do CSV nebo JSON, a můžete je hned použít.
Další dovednosti pokrývají analýzu konkurence, monitorování značkové reputace, shromažďování dat z e-commerce, objevování KOL, získávání potenciálních zákazníků, analýzu trendů a další scénáře. Pokud provádíte tržní výzkum nebo analýzu obchodních dat, tato sada je naprosto úžasná.
Instalace této sady Skills v Claude Code je také velmi pohodlná. Předpokladem je mít účet na Apify (zaregistrujte se na apify.com, je k dispozici bezplatná kvóta), po získání API Tokenu můžete začít s konfigurací.
Instalace se skládá ze dvou kroků. Nejprve přidejte zdroj trhu:/plugin marketplace add https://github.com/apify/agent-skills Poté nainstalujte dovednosti, které potřebujete, například univerzální webový scraper:
/plugin install apify-ultimate-scraper@apify-agent-skills Můžete také použít univerzální způsob npx a nainstalovat všechny dovednosti najednou:
npx skills add apify/agent-skills Po instalaci nezapomeňte v souboru .env v kořenovém adresáři projektu nastavit svůj API Token:
APIFYTOKEN=tvůjtoken
Například pro získání dat o videích z Youtube
Zde je klíčový bod. Santiago opakovaně zdůrazňuje v tweetu, že hlavní výhodou tohoto řešení je návrat strukturovaných dat. Například, když požádáte Claude Code, aby vám získal seznam produktů z určitého e-commerce platformy, dostanete uspořádanou tabulku (název, cena, hodnocení, odkaz), kterou můžete přímo použít k analýze, což je mnohem užitečnější než textový shrnutí vrácené WebFetch.
Apify má model účtování podle výsledků, což znamená, že se platí pouze za úspěšně získaná data. Pro jednotlivé uživatele je však bezplatný limit dostatečný pro mnoho úkolů.
Metoda 2: Apify MCP Server
Pokud chcete mít flexibilnější kontrolu, nebo pokud dovednosti nepokrývají váš scénář, existuje druhá cesta: připojit se k platformě Apify přímo prostřednictvím MCP (Model Context Protocol).
Pomocí Apify MCP Serveru může Claude Code přímo volat tisíce hotových scraperů a automatizačních nástrojů v Apify Store.
Adresa GitHub repozitáře: https://github.com/apify/apify-mcp-server
Konfigurace MCP řešení není složitá. Doporučuje se použít hostovanou vzdálenou serverovou metodu, konfigurace je nejjednodušší. Přidejte do svého MCP konfiguračního souboru:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer tvůjAPIFYTOKEN" } } } } Pokud dáváte přednost místnímu spuštění, můžete použít Stdio metodu:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "tvůjAPIFY_TOKEN" } } } } Po správném nastavení může Claude Code volat nástroje jako search-actors (hledání dostupných scraperů), call-actor (provádění úkolu scraperu), get-dataset-items (získání výsledků scraping) atd.
Dovednosti a MCP metody lze nainstalovat obě, obě se navzájem doplňují.
Pokud je vaše potřeba častá a scénář pevný (například každý den získávat ceny konkurence), je lepší použít dovednosti, předpřipravené pracovní postupy jsou připraveny k použití.
Pokud je vaše potřeba dočasná a scénář se mění (dnes získat data ze sociálních médií, zítra získat veřejná data od vlády), je MCP flexibilnější, v Apify Store je k dispozici více než 15000 Actorů, které lze kdykoliv volat.
Obě metody mají stejnou podmínku: potřebujete účet Apify a API Token, potřebujete prostředí Node.js 20.6+.
Je důležité si uvědomit jeden časový bod: způsob přenosu SSE Apify MCP Serveru bude zrušen 1. dubna 2026, a bude nutné přejít na Streamable HTTP způsob. Pokud začínáte s konfigurací nyní, stačí použít výše doporučenou konfiguraci, již je to nový způsob.

