Claude Code + Apify, bezbariérové získavanie dát z celého internetu
Claude Code + Apify, bezbariérové získavanie dát z celého internetu
Ahojte, som Lu Gong.
Keď používate Claude Code, najmä v režime Plán, často sa objavuje potreba využiť nástroj WebSearch na získavanie údajov z webových stránok. Ale často sa stretávame s problémom Fetch error.
Toto je vlastne starý problém. Nástroje WebFetch a WebSearch, ktoré sú súčasťou Claude Code, sú dostatočné na vyhľadávanie informácií a prieskum v 80% scenárov, ale keď narazíte na stránky s JS renderovaním, stránky, ktoré vyžadujú prihlásenie, alebo potrebu masového zberu údajov, vstavané nástroje jednoducho nevydržia.
Pred pár dňami som videl, ako Santiago (@svpino, známy bloger v oblasti AI/ML) zdieľal riešenie, ktoré hovorí, že môžete použiť Claude Code na získavanie aktuálnych štruktúrovaných údajov z akéhokoľvek webu, pričom výsledkom sú tabuľky, ktoré môžete priamo použiť, nie dlhé textové súhrny. Vyskúšal som to a naozaj to funguje veľmi dobre.
Dnes sa pozrieme na to, ako pridať schopnosť zberu údajov z celého internetu do Claude Code, dve cesty, vyberte si podľa potreby.
Krátke nedostatky vstavaných nástrojov Claude Code
Claude Code má dva vstavané nástroje na pripojenie: WebSearch zodpovedá za vyhľadávanie, WebFetch zodpovedá za získavanie obsahu stránok.
WebSearch je relatívne jednoduchý, dáte mu hľadaný výraz a on vráti relevantné odkazy a názvy. WebFetch je o niečo zložitejší, dáte mu URL a otázku, on získa obsah stránky, pomocou knižnice Turndown premení HTML na Markdown, skráti ho na menej ako 100KB a potom použije ľahký model (Haiku), aby vám to zhrnul.
Jednoducho povedané, tieto dva nástroje sú ako jednoduchá verzia prehliadača. Môžu byť použité, ale majú niekoľko vážnych nedostatkov.
Najväčším problémom je, že nemôžu renderovať JS. V súčasnosti je veľa webových stránok SPA (jednostránkové aplikácie), obsah sa načítava dynamicky pomocou JS. X/Twitter, mnoho e-commerce platforiem, rôzne SaaS backendy, WebFetch nedokáže získať skutočný obsah, môže získať len prázdny rámec.
Schopnosť proti botom je tiež prakticky nulová. Nepodporuje rotáciu proxy, nedokáže spracovať CAPTCHA, a keď narazí na web s mechanizmom proti botom, nemôže nič robiť.
Ďalším problémom je, že vracia iba textové súhrny. Ak chcete získať štruktúrované údaje (napríklad tabuľku cien produktov, zoznam recenzií používateľov, porovnanie funkcií konkurencie), WebFetch to nedokáže, vždy vám dá len skomprimovaný text.
Tieto tri nedostatky spolu robia z Claude Code ťažko použiteľný nástroj na zber údajov. Ale teraz existuje riešenie.
Metóda 1: Apify Agent Skills
Apify je starý cloudový crawler platforma, ktorá sa zaoberá získavaním webových stránok a automatizáciou už mnoho rokov. Nedávno predstavili súbor Agent Skills, jednoducho povedané, je to súbor predpripravených zručností, ktoré učia AI Coding Agenta, ako robiť zber údajov.
Adresa GitHub repozitára: https://github.com/apify/agent-skills
Tento súbor Skills podporuje Claude Code, Cursor, Codex, Gemini CLI a ďalšie populárne AI programovacie nástroje. V súčasnosti je k dispozícii 12 zručností, ktoré pokrývajú široké spektrum.
Jadrom apify-ultimate-scraper je univerzálna crawler zručnosť, ktorá dokáže získať údaje z platforiem ako Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search a ďalších. Kľúčové je, že vracia štruktúrované údaje, ktoré môžete priamo exportovať do CSV alebo JSON, a môžete ich hneď použiť.
Ostatné zručnosti pokrývajú analýzu konkurencie, monitorovanie značky, zber údajov z e-commerce, objavovanie KOL, získavanie potenciálnych zákazníkov, analýzu trendov a ďalšie scenáre. Ak robíte prieskum trhu alebo analýzu obchodných údajov, tento súbor je jednoducho úžasný.
Inštalácia týchto zručností v Claude Code je tiež veľmi pohodlná. Predpokladom je mať účet Apify (zaregistrujte sa na apify.com, je k dispozícii bezplatný limit), po získaní API Tokenu môžete začať s konfiguráciou.
Inštalácia sa skladá z dvoch krokov. Najprv pridajte zdroj trhu:/plugin marketplace add https://github.com/apify/agent-skills再安装你需要的技能,比如万能爬虫:
/plugin install apify-ultimate-scraper@apify-agent-skills也可以用通用的npx方式一次装完所有技能:
npx skills add apify/agent-skills安装后别忘了在项目根目录的 .env 文件里配上你的API Token:
APIFYTOKEN=你的token
比如抓取Youtube视频数据
这里说个关键点。Santiago在推文里反复强调,这个方案的核心优势是返回结构化数据。比如你让Claude Code帮你抓取某个电商平台的商品列表,拿到的是整理好的表格(品名、价格、评分、链接),可以直接拿来做分析,比WebFetch返回的文字摘要实用太多了。
Apify的计费模式是按结果付费,也就是说只有成功抓到数据才扣钱。不过对个人用户来说,免费额度够做不少事了。
方法二:Apify MCP Server
如果你想要更灵活的控制,或者Skills里没有覆盖到你的场景,还有第二条路:直接通过MCP(Model Context Protocol)接入Apify平台。
通过Apify MCP Server,Claude Code可以直接调用Apify Store里数千个现成的爬虫和自动化工具。
GitHub仓库地址:https://github.com/apify/apify-mcp-server
MCP方案配置也不复杂。推荐用托管的远程服务器方式,配置最省事。在你的MCP配置文件里加上:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer 你的APIFYTOKEN" } } } }如果你更喜欢本地运行,可以用Stdio方式:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "你的APIFYTOKEN" } } } }配好之后,Claude Code就能调用search-actors(搜索可用的爬虫)、call-actor(执行爬虫任务)、get-dataset-items(获取抓取结果)等工具了。
Skills和MCP方法可以都安装下,二者本身可以互补。
如果你的需求是高频的、场景固定的(比如每天抓一次竞品价格),用Skills更省心,预制的工作流开箱即用。
如果你的需求是临时的、场景多变的(今天抓社交媒体,明天抓政府公开数据),用MCP更灵活,Apify Store里有15000+的Actor可以随时调用。
两种方式前提都一样:需要Apify账号和API Token,需要Node.js 20.6+环境。
一定要注意一个时间节点:Apify MCP Server的SSE传输方式将在2026年4月1日废弃,届时需要更新为Streamable HTTP方式。如果你是现在开始配置,直接用上面推荐的配置就好,已经是新方式了。
其他值得关注的方案
Brave Search MCP je oficiálne odporúčané vyhľadávacie riešenie od Anthropic, ponúka 2000 bezplatných dotazov mesačne, je vhodné ako doplnok pre každodenné vyhľadávanie, ale je to len vyhľadávač, nemôže vykonávať zber štruktúrovaných údajov.
Playwright MCP dokáže vykonávať skutočné renderovanie v prehliadači, dokáže spracovávať dynamické stránky JavaScript, je vhodný pre tie webové stránky, ktoré WebFetch nezvláda. Ale je viac orientovaný na automatizované operácie, nie je tak pohodlný na veľkoplošný zber údajov ako Apify.
Bright Data MCP sa orientuje na podnikový segment, podporuje rotáciu proxy a spracovanie CAPTCHA, v roku 2026 zaviedli nový bezplatný plán (5000 MCP požiadaviek mesačne), je vhodný pre scenáre, kde je potrebné prekonať mechanizmy proti scrapingu.
Tieto riešenia majú svoje špecifiká a môžu sa kombinovať podľa potreby. Moja aktuálna kombinácia je zabudovaný WebFetch/WebSearch na spracovanie každodenných požiadaviek na vyhľadávanie informácií, Apify Skills na zber štruktúrovaných údajov.
Schopnosti Claude Code v oblasti pripojenia, zabudované nástroje pokrývajú 80% každodenných scenárov, ale tých zostávajúcich 20% (renderovanie JS, proti scrapingu, štruktúrované údaje) sú presne tie, ktorým sa v mnohých praktických prácach nedá vyhnúť. Apify Agent Skills a MCP Server tento nedostatok pokrývajú, proces konfigurácie nie je zložitý, veľmi odporúčam študentom, ktorí majú potrebu zberu údajov, aby to vyskúšali.

