Claude Code + Apify, aðgengileg gagnasöfnun á netinu
Claude Code + Apify, aðgengileg gagnasöfnun á netinu
Halló allir, ég er Lu Gong.
Þegar fólk notar Claude Code, sérstaklega í Plan mode, er oft þörf fyrir að nota WebSearch verkfærið til að safna vefsíðugögnum. En oft kemur upp Fetch error.
Þetta er í raun gamalt vandamál. Með WebFetch og WebSearch verkfærunum sem fylgja Claude Code er hægt að leita að gögnum og gera rannsóknir í 80% tilfella, en þegar kemur að JS-renderuðum síðum, innskráningarsíðum eða þörf fyrir stórfellda gagnasöfnun, þá dugar innbyggðu verkfærin ekki.
Fyrir nokkrum dögum sá ég Santiago (@svpino, þekktur bloggari á AI/ML sviðinu) deila lausn, þar sem hann sagði að hægt væri að nota Claude Code til að draga út rauntímagagnaskipulag frá hvaða vefsíðu sem er, og það sem kemur til baka er hægt að nota beint í töflum, ekki bara langar texta samantektir. Ég prófaði það og það virkar virkilega vel.
Í dag munum við ræða um hvernig á að setja upp gagnasöfnunarfærni fyrir Claude Code, tveir leiðir, veldu eftir þörfum.
Skortur á innbyggðum netverkfærum Claude Code
Claude Code fylgir tveimur netverkfærum: WebSearch sem sér um leitina, og WebFetch sem sér um að safna efni vefsíðna.
WebSearch er frekar einfalt, þú gefur því leitarorð og það skilar tenglum og titlum. WebFetch er aðeins flóknara, þú gefur því URL og spurningu, það mun safna efni síðunnar, breyta HTML í Markdown með Turndown bókasafninu, skera niður í 100KB, og nota léttan líkan (Haiku) til að draga saman.
Í stuttu máli, þessi tvö verkfæri eru einföld útgáfa af vafra. Þau virka, en hafa nokkur alvarleg vandamál.
Stærsta vandamálið er að þau geta ekki renderað JS. Núna eru mörg vefsíður SPA (einn síðu forrit), þar sem efni er hlaðið inn með JS. X/Twitter, margar netverslanir, og ýmis SaaS bakendakerfi, WebFetch getur ekki náð raunverulegu efni, aðeins fengið tóma skel.
Andstæðingur-skráningargeta er einnig nánast engin. Það styður ekki umboðsnýtingu, getur ekki unnið með CAPTCHA skráningarkóðum, og þegar það mætir vefsíðum með andstæðingur-skráningarkerfi, þá er það bara að gefast upp.
Einn annar sársaukapunktur er að það skilar aðeins textasamantekt. Ef þú vilt fá skipulögð gögn (svo sem verðlista, umsagnir notenda, samanburð á eiginleikum samkeppnisaðila), þá getur WebFetch ekki uppfyllt það, það skilar þér alltaf stuttu texta.
Þessi þrjú vandamál saman gera Claude Code alltaf skorta notendavænni í gagnasöfnun. En núna er til lausn.
Aðferð 1: Apify Agent Skills
Apify er vel þekkt skýja skrapunarpallur, sem hefur verið að safna vefsíðugögnum og sjálfvirkni í mörg ár. Nýlega hafa þeir kynnt Agent Skills, einfaldlega sagt, þetta er hópur af fyrirfram gerðum hæfileikapökkum, sérstaklega hannað til að kenna AI Coding Agent hvernig á að safna gögnum.
GitHub geymsluheimild: https://github.com/apify/agent-skills
Þessi hæfileikapakkar styðja Claude Code, Cursor, Codex, Gemini CLI og aðra helstu AI forritunarverkfæri. Í heildina eru 12 hæfileikar, sem ná yfir vítt svið.
Kjarna apify-ultimate-scraper er almennur skrapunarfærni, sem getur safnað gögnum frá Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search og fleiri. Það skiptir máli að það skilar skipulögðum gögnum, sem hægt er að flytja beint í CSV eða JSON, tilbúið til notkunar.
Aðrir hæfileikar ná yfir samkeppnisgreiningu, vöru ímynd, gagnasöfnun fyrir netverslanir, KOL uppgötvun, leiða að mögulegum viðskiptavinum, greining á þróun o.s.frv. Ef þú ert að gera markaðsrannsóknir eða viðskiptagreiningu, þá er þessi pakki algjörlega dásamlegur.
Að setja upp þessa hæfileika í Claude Code er einnig mjög auðvelt. Skilyrðið er að þú þarft Apify reikning (farðu á apify.com til að skrá þig, það er frítt að byrja), þegar þú hefur fengið API Token geturðu byrjað að stilla.
Uppsetningin skiptist í tvær skref. Fyrst bætirðu við markaðsgjaldinu:/plugin marketplace add https://github.com/apify/agent-skills再安装你需要的技能,比如万能爬虫:
/plugin install apify-ultimate-scraper@apify-agent-skills也可以用通用的npx方式一次装完所有技能:
npx skills add apify/agent-skills安装后别忘了在项目根目录的 .env 文件里配上你的API Token:
APIFYTOKEN=你的token
比如抓取Youtube视频数据
这里说个关键点。Santiago在推文里反复强调,这个方案的核心优势是返回结构化数据。比如你让Claude Code帮你抓取某个电商平台的商品列表,拿到的是整理好的表格(品名、价格、评分、链接),可以直接拿来做分析,比WebFetch返回的文字摘要实用太多了。
Apify的计费模式是按结果付费,也就是说只有成功抓到数据才扣钱。不过对个人用户来说,免费额度够做不少事了。
方法二:Apify MCP Server
如果你想要更灵活的控制,或者Skills里没有覆盖到你的场景,还有第二条路:直接通过MCP(Model Context Protocol)接入Apify平台。
通过Apify MCP Server,Claude Code可以直接调用Apify Store里数千个现成的爬虫和自动化工具。
GitHub仓库地址:https://github.com/apify/apify-mcp-server
MCP方案配置也不复杂。推荐用托管的远程服务器方式,配置最省事。在你的MCP配置文件里加上:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer 你的APIFYTOKEN" } } } }如果你更喜欢本地运行,可以用Stdio方式:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "你的APIFYTOKEN" } } } }配好之后,Claude Code就能调用search-actors(搜索可用的爬虫)、call-actor(执行爬虫任务)、get-dataset-items(获取抓取结果)等工具了。
Skills和MCP方法可以都安装下,二者本身可以互补。
如果你的需求是高频的、场景固定的(比如每天抓一次竞品价格),用Skills更省心,预制的工作流开箱即用。
如果你的需求是临时的、场景多变的(今天抓社交媒体,明天抓政府公开数据),用MCP更灵活,Apify Store里有15000+的Actor可以随时调用。
两种方式前提都一样:需要Apify账号和API Token,需要Node.js 20.6+环境。
一定要注意一个时间节点:Apify MCP Server的SSE传输方式将在2026年4月1日废弃,届时需要更新为Streamable HTTP方式。如果你是现在开始配置,直接用上面推荐的配置就好,已经是新方式了。
其他值得关注的方案Brave Search MCP er opinberlega mælt með leitarlausn frá Anthropic, með 2000 ókeypis fyrirspurnum á mánuði, hentar vel sem viðbót við daglegar leitarþarfir, en það er aðeins leitarvél og getur ekki safnað uppbyggðum gögnum.
Playwright MCP getur framkvæmt raunverulega vafra rendering, getur unnið með JavaScript dýnamískum síðum, hentar þeim vefsíðum sem WebFetch getur ekki unnið með vegna mikillar JS notkunar. En það er meira í átt að sjálfvirkum aðgerðum, ekki eins þægilegt fyrir stórfellda gagnaöflun eins og Apify.
Bright Data MCP fer í fyrirtækjaflokk, styður umsnúning á umboðsmönnum og meðhöndlun CAPTCHA, kynnti nýjan ókeypis pakka árið 2026 (5000 MCP fyrirspurnir á mánuði), hentar vel í aðstæðum þar sem þarf að brjóta í gegnum vefskrapa hindranir.
Þessar lausnir hafa hver sín áherslur og má sameina þær eftir þörfum. Núverandi samsetning mín er innbyggð WebFetch/WebSearch til að uppfylla daglegar þörf fyrir upplýsingar, Apify Skills til að safna uppbyggðum gögnum.
Tengimöguleikar Claude Code, innbyggðu verkfæri geta þakið 80% af daglegum aðstæðum, en þau 20% sem eftir eru (JS rendering, vefskrapa hindranir, uppbyggð gögn) eru einmitt þau sem er erfitt að komast hjá í mörgum raunverulegum verkefnum. Agent Skills og MCP Server Apify fylla þetta skarð, stillingarferlið er einnig ekki flókið, mjög mælt með fyrir nemendur sem hafa þörf fyrir gagnaöflun að prófa.

