Claude Code + Apify,无障碍抓取全网数据

3/3/2026
3 min read

Claude Code + Apify,无障碍抓取全网数据

Claude Code + Apifyഎല്ലാവർക്കും നമസ്കാരം, ഞാൻ ലു ഗോംഗ്.

Claude Code ഉപയോഗിക്കുമ്പോൾ, പ്രത്യേകിച്ച് Plan mode-ൽ, വെബ്‌സർച്ച് ഉപകരണങ്ങൾ ഉപയോഗിച്ച് വെബ് പേജ് ഡാറ്റ പിടിക്കാൻ ആവശ്യം ഉണ്ടാകാറുണ്ട്. എന്നാൽ പലപ്പോഴും Fetch error എന്ന അവസ്ഥയുമായി നേരിടേണ്ടിവരുന്നു.

ഇത് യഥാർത്ഥത്തിൽ ഒരു പഴയ പ്രശ്നമാണ്. Claude Code-ന്റെ WebFetch, WebSearch ഉപകരണങ്ങൾ ഉപയോഗിച്ച്, വിവരങ്ങൾ അന്വേഷിക്കാൻ, ഗവേഷണം നടത്താൻ, 80% സാഹചര്യങ്ങളിൽ ഇത് മതിയാകും, എന്നാൽ JS-rendered പേജുകൾ, ലോഗിൻ ആവശ്യമായ സൈറ്റുകൾ, അല്ലെങ്കിൽ വലിയ തോതിലുള്ള ഡാറ്റ ശേഖരണ ആവശ്യങ്ങൾ വന്നാൽ, ഉൾപ്പെടുത്തിയ ഉപകരണങ്ങൾ പ്രവർത്തിക്കില്ല.

കഴിഞ്ഞ രണ്ട് ദിവസങ്ങൾക്ക് മുമ്പ്, Santiago (@svpino, AI/ML മേഖലയിലെ പ്രശസ്ത ബ്ലോഗർ) പങ്കുവച്ച ഒരു പരിഹാരത്തെ ഞാൻ കണ്ടു, അദ്ദേഹം Claude Code ഉപയോഗിച്ച് ഏതെങ്കിലും സൈറ്റിൽ നിന്ന് യാഥാർത്ഥ്യ സമയത്തിൽ ഘടനാപരമായ ഡാറ്റ എടുക്കാൻ കഴിയുമെന്ന് പറഞ്ഞു, ഇത് നേരിട്ട് ഉപയോഗിക്കാൻ കഴിയുന്ന പട്ടികയായി തിരിച്ചുകൊടുക്കുന്നു, വലിയൊരു എഴുത്തിന്റെ സംഗ്രഹം അല്ല. ഞാൻ ഒരു ശ്രമം നടത്തി, ഇത് വളരെ നല്ലതായി തോന്നി.

ഇന്ന് Claude Code-ന് ആഗോള ഡാറ്റ ശേഖരണ ശേഷി എങ്ങനെ നൽകാമെന്ന് ചർച്ച ചെയ്യാം, രണ്ട് വഴികൾ, ആവശ്യത്തിന് തിരഞ്ഞെടുക്കുക.

Claude Code内置联网工具的短板

Claude Code-ന് രണ്ട്联网工具 ഉണ്ട്: WebSearch തിരയുന്നതിന്, WebFetch പേജ് ഉള്ളടക്കം പിടിക്കാൻ.

WebSearch വളരെ ലളിതമാണ്, നിങ്ങൾക്ക് ഒരു തിരയൽ വാക്ക് നൽകുമ്പോൾ, ഇത് ബന്ധപ്പെട്ട ലിങ്കുകളും തലക്കെട്ടുകളും തിരിച്ചുകൊടുക്കുന്നു. WebFetch കുറച്ച് സങ്കീർണ്ണമാണ്, നിങ്ങൾക്ക് ഒരു URL, ഒരു ചോദ്യം നൽകുമ്പോൾ, ഇത് പേജ് ഉള്ളടക്കം പിടിക്കും, Turndown ലൈബ്രറി ഉപയോഗിച്ച് HTML-നെ Markdown-ലേക്ക് മാറ്റും, 100KB-ൽ താഴെ കുത്തിവെക്കുകയും, ഒരു ലഘുവായ മോഡൽ (Haiku) ഉപയോഗിച്ച് നിങ്ങൾക്കായി സംഗ്രഹിക്കും.

സത്യത്തിൽ, ഈ രണ്ട് ഉപകരണങ്ങൾ ഒരു ലളിതമായ ബ്രൗസറിന്റെ സമാനമാണ്. ഉപയോഗിക്കാൻ കഴിയും, എന്നാൽ ചില കഠിനമായ പ്രശ്നങ്ങൾ ഉണ്ട്.

മികച്ച പ്രശ്നം JS-നെ റൻഡർ ചെയ്യാൻ കഴിയാത്തതാണ്. ഇപ്പോൾ നിരവധി സൈറ്റുകൾ SPA (സിംഗിൾ പേജ് ആപ്ലിക്കേഷൻ) ആണ്, ഉള്ളടക്കം JS-ൽ ഡൈനാമിക് ആയി ലോഡ് ചെയ്യുന്നു. X/Twitter, നിരവധി ഇ-കൊമേഴ്‌സ് പ്ലാറ്റ്ഫോമുകൾ, വിവിധ SaaS ബാക്ക്‌എൻഡ്, WebFetch യഥാർത്ഥ ഉള്ളടക്കം പിടിക്കാൻ കഴിയുന്നില്ല, വെറും ഒരു ശൂന്യ കവർ മാത്രമേ ലഭിക്കൂ.

വിരുദ്ധ-പിടുത്ത ശേഷി അടിസ്ഥാനപരമായി ശൂന്യമാണ്. പ്രോക്സി റൊട്ടേഷൻ പിന്തുണയില്ല, CAPTCHA വെരിഫിക്കേഷൻ കൈകാര്യം ചെയ്യാൻ കഴിയുന്നില്ല, വിരുദ്ധ-പിടുത്ത മെക്കാനിസം ഉള്ള സൈറ്റുകൾ നേരിടുമ്പോൾ, വെറും കൈമാറേണ്ടതായിരിക്കും.

മറ്റൊരു വേദനാ ബിന്ദു, ഇത് വെറും എഴുത്തിന്റെ സംഗ്രഹം തിരിച്ചുകൊടുക്കുന്നു. നിങ്ങൾക്ക് ഘടനാപരമായ ഡാറ്റ (ഉദാഹരണത്തിന് ഉൽപ്പന്ന വില പട്ടിക, ഉപയോക്തൃ അവലോകന പട്ടിക, മത്സരം ഫീച്ചർ താരതമ്യം) ലഭിക്കാൻ ആഗ്രഹിച്ചാൽ, WebFetch അത് ചെയ്യാൻ കഴിയുന്നില്ല, ഇത് നിങ്ങൾക്കു എപ്പോഴും ഒരു സംക്ഷിപ്തമായ എഴുത്ത് നൽകും.

ഈ മൂന്ന് കുറവുകൾ ചേർന്നാൽ, Claude Code ഡാറ്റ ശേഖരണത്തിൽ എപ്പോഴും ഉപയോഗിക്കാനുള്ള സൗകര്യം കുറവാണ്. എന്നാൽ ഇപ്പോൾ ഒരു പരിഹാരമുണ്ട്.

方法一:Apify Agent Skills

Apify ഒരു പഴയ ക്ലൗഡ് വെബ് സ്ക്രാപ്പിംഗ് പ്ലാറ്റ്ഫോമാണ്, വെബ് പേജ് പിടിക്കൽ, ഓട്ടോമേഷൻ എന്നിവയിൽ നിരവധി വർഷങ്ങളായി പ്രവർത്തിക്കുന്നു. അടുത്തിടെ അവർ ഒരു സെറ്റ് ഏജന്റ് സ്കിൽസ് പുറത്തിറക്കി, ലളിതമായി പറയുമ്പോൾ, AI Coding Agent-നെ ഡാറ്റ ശേഖരണം എങ്ങനെ ചെയ്യണമെന്ന് പഠിപ്പിക്കുന്ന ഒരു പ്രീ-മെയ്ഡ് സ്കിൽ പാക്ക്.

GitHub仓库地址:https://github.com/apify/agent-skills

ഈ Skills Claude Code, Cursor, Codex, Gemini CLI തുടങ്ങിയ പ്രധാന AI പ്രോഗ്രാമിംഗ് ഉപകരണങ്ങളെ പിന്തുണയ്ക്കുന്നു. നിലവിൽ 12 സ്കിലുകൾ ഉണ്ട്, വ്യാപകമായ പരിധി ഉൾക്കൊള്ളുന്നു.

കേന്ദ്രമായ apify-ultimate-scraper ഒരു സർവകലാശാല സ്ക്രാപ്പിംഗ് സ്കിൽ ആണ്, Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search തുടങ്ങിയ പ്ലാറ്റ്ഫോമുകളിൽ നിന്നുള്ള ഡാറ്റ പിടിക്കാൻ കഴിയും. പ്രധാനമായത്, ഇത് ഘടനാപരമായ ഡാറ്റ നൽകുന്നു, നേരിട്ട് CSV അല്ലെങ്കിൽ JSON ആയി എക്സ്പോർട്ട് ചെയ്യാൻ കഴിയും, ഉപയോഗിക്കാൻ തയ്യാറാണ്.

മറ്റു സ്കിലുകൾ മത്സരം വിശകലനം, ബ്രാൻഡ് പ്രശസ്തി നിരീക്ഷണം, ഇ-കൊമേഴ്‌സ് ഡാറ്റ ശേഖരണം, KOL കണ്ടെത്തൽ, സാധ്യതയുള്ള ഉപഭോക്താക്കളെ നേടൽ, പ്രവണത വിശകലനം തുടങ്ങിയ രംഗങ്ങൾ ഉൾക്കൊള്ളുന്നു. നിങ്ങൾ മാർക്കറ്റ് ഗവേഷണം അല്ലെങ്കിൽ ബിസിനസ് ഡാറ്റ വിശകലനം ചെയ്യുകയാണെങ്കിൽ, ഈ സെറ്റ് അത്ഭുതകരമാണ്.

Claude Code-ൽ ഈ Skills ഇൻസ്റ്റാൾ ചെയ്യുന്നത് വളരെ എളുപ്പമാണ്. മുൻകൂട്ടി ഒരു Apify അക്കൗണ്ട് (apify.com-ൽ രജിസ്റ്റർ ചെയ്യുക, സൗജന്യ ക്വോട്ടയുണ്ട്) വേണം, API Token ലഭിച്ചതിന് ശേഷം കോൺഫിഗർ ചെയ്യാൻ തുടങ്ങാം.

ഇൻസ്റ്റാളേഷൻ രണ്ട് ഘട്ടങ്ങളായി വിഭജിക്കുന്നു. ആദ്യം മാർക്കറ്റ് ഉറവിടങ്ങൾ ചേർക്കുക:/plugin marketplace add https://github.com/apify/agent-skills再安装你需要的技能,比如万能爬虫:

/plugin install apify-ultimate-scraper@apify-agent-skills也可以用通用的npx方式一次装完所有技能:

npx skills add apify/agent-skills安装后别忘了在项目根目录的 .env 文件里配上你的API Token:

APIFYTOKEN=你的token

比如抓取Youtube视频数据

这里说个关键点。Santiago在推文里反复强调,这个方案的核心优势是返回结构化数据。比如你让Claude Code帮你抓取某个电商平台的商品列表,拿到的是整理好的表格(品名、价格、评分、链接),可以直接拿来做分析,比WebFetch返回的文字摘要实用太多了。

Apify的计费模式是按结果付费,也就是说只有成功抓到数据才扣钱。不过对个人用户来说,免费额度够做不少事了。

方法二:Apify MCP Server

如果你想要更灵活的控制,或者Skills里没有覆盖到你的场景,还有第二条路:直接通过MCP(Model Context Protocol)接入Apify平台。

通过Apify MCP Server,Claude Code可以直接调用Apify Store里数千个现成的爬虫和自动化工具。

GitHub仓库地址:https://github.com/apify/apify-mcp-server

MCP方案配置也不复杂。推荐用托管的远程服务器方式,配置最省事。在你的MCP配置文件里加上:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer 你的APIFYTOKEN" } } } }如果你更喜欢本地运行,可以用Stdio方式:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "你的APIFYTOKEN" } } } }配好之后,Claude Code就能调用search-actors(搜索可用的爬虫)、call-actor(执行爬虫任务)、get-dataset-items(获取抓取结果)等工具了。

Skills和MCP方法可以都安装下,二者本身可以互补。

如果你的需求是高频的、场景固定的(比如每天抓一次竞品价格),用Skills更省心,预制的工作流开箱即用。

如果你的需求是临时的、场景多变的(今天抓社交媒体,明天抓政府公开数据),用MCP更灵活,Apify Store里有15000+的Actor可以随时调用。

两种方式前提都一样:需要Apify账号和API Token,需要Node.js 20.6+环境。

一定要注意一个时间节点:Apify MCP Server的SSE传输方式将在2026年4月1日废弃,届时需要更新为Streamable HTTP方式。如果你是现在开始配置,直接用上面推荐的配置就好,已经是新方式了。

其他值得关注的方案

Brave Search MCP是Anthropic官方推荐的搜索方案,每月2000次免费查询,适合日常搜索补充,但它只是搜索引擎,不能做结构化数据采集。

Playwright MCP可以做真正的浏览器渲染,能处理JavaScript动态页面,适合那些WebFetch搞不定的JS重度站点。但它更偏向自动化操作,不如Apify方便做大规模数据采集。

Bright Data MCP走的是企业级路线,支持代理轮转和CAPTCHA处理,2026年新推了一个免费档(每月5000次MCP请求),适合需要突破反爬机制的场景。

这几个方案各有侧重,可以按需搭配。我现在的组合是内置WebFetch/WebSearch处理日常查资料的需求,Apify Skills处理结构化数据采集。

Claude Code的联网能力,内置工具能覆盖日常80%的场景,但那剩下的20%(JS渲染、反爬、结构化数据)恰恰是很多实际工作中绕不开的。Apify的Agent Skills和MCP Server把这个缺口补上了,配置过程也不复杂,非常推荐有数据采集需求的同学试试。

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം

Claude Code Buddy മാറ്റം മാർഗ്ഗനിർദ്ദേശം: എങ്ങനെ മിനുക്കിയ പാരമ്പര്യതലത്തെ പെട്ടി നേടാം 2026年4月1日,Anthropic 在 Claude Cod...

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയിTechnology

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി

Obsidian Defuddle പുറത്തിറക്കി, Obsidian Web Clipper-നെ പുതിയ ഉയരത്തിലേക്ക് കൊണ്ടുപോയി ഞാൻ എപ്പോഴും Obsidian-ന്റെ ആധാരഭ...

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചുTechnology

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റായ വഴിയിലേക്കു പോയതായി ആന്തരികമായി അംഗീകരിച്ചു

OpenAI അപ്രതീക്ഷിതമായി "മൂന്ന്-in-ഒന്ന്" പ്രഖ്യാപിച്ചു: ബ്രൗസർ + പ്രോഗ്രാമിംഗ് + ChatGPT സംയോജനം, കഴിഞ്ഞ ഒരു വർഷം തെറ്റാ...

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരുംHealth

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും

2026, ഇനി സ്വയം 'ആത്മനിർവഹണം' ചെയ്യാൻ സമ്മർദം നൽകേണ്ട! ഈ 8 ചെറിയ കാര്യങ്ങൾ ചെയ്യുക, ആരോഗ്യവും സ്വാഭാവികമായി വരും പുതിയ ...

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാംHealth

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം

അവിടെ കുറവായിട്ടും കുറയാത്ത അമ്മമാർ, അവരെ ഇവിടെ കാണാം മാർച്ച് മാസത്തിന്റെ മധ്യത്തിൽ, നിങ്ങളുടെ കുറവാക്കൽ പദ്ധതിയേന്താണ്...

📝
Technology

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം

AI Browser 24 മണിക്കൂർ സ്ഥിരമായ പ്രവർത്തന മാർഗ്ഗനിർദ്ദേശം ഈ ട്യൂട്ടോറിയൽ ഒരു സ്ഥിരമായ, ദീർഘകാല പ്രവർത്തനമുള്ള AI ബ്രൗസർ ...