Claude Code + Apify,无障碍抓取全网数据
Claude Code + Apify,无障碍抓取全网数据
எல்லாம் வணக்கம், நான் லூ காங்.
நீங்கள் Claude Code-ஐ பயன்படுத்தும் போது, குறிப்பாக Plan mode-ல், இணையதள தரவுகளை பிடிக்க WebSearch கருவியைப் பயன்படுத்துவதற்கான தேவைகள் அடிக்கடி ஏற்படும். ஆனால் Fetch error என்ற நிலையை சந்திக்க நேரிடும்.
இது உண்மையில் பழைய பிரச்சினை. Claude Code-இன் உள்ளமைவான WebFetch மற்றும் WebSearch கருவிகளைப் பயன்படுத்தி, தகவல்களை தேடுவதற்கும், ஆராய்வுகளைச் செய்யுவதற்கும், 80% காட்சிகளில் இது போதுமானது, ஆனால் JS உருவாக்கப்பட்ட பக்கம், உள்நுழைவுக்கு தேவைப்படும் தளங்கள், அல்லது பெரிய அளவிலான தரவுகளைப் பிடிக்க வேண்டிய தேவைகள் வந்தால், உள்ளமைவான கருவிகள் செயல்பட முடியாது.
முந்தைய இரண்டு நாட்களுக்கு முன்பு, Santiago (@svpino, AI/ML துறையில் பிரபலமான வலைப்பதிவாளர்) ஒரு திட்டத்தைப் பகிர்ந்தார், அவர் Claude Code-ஐப் பயன்படுத்தி எந்தவொரு இணையதளத்திலிருந்தும் நேரடி கட்டமைக்கப்பட்ட தரவுகளைப் பெறலாம் என்று கூறினார், இது நேரடியாகப் பயன்படுத்தக்கூடிய அட்டவணையாக திரும்ப வருகிறது, பெரிய அளவிலான உரை சுருக்கமாக அல்ல. நான் இதைப் பரிசோதித்தேன், இது உண்மையில் மிகவும் பயனுள்ளதாக இருந்தது.
இன்று Claude Code-க்கு முழு இணையதள தரவுகளைப் பிடிக்கும் திறனை எப்படி நிறுவுவது என்பதைப் பற்றி பேசுவோம், இரண்டு பாதைகள், தேவைக்கேற்ப தேர்வு செய்யவும்.
Claude Code内置联网工具的短板
Claude Code-க்கு இரண்டு உள்ளமைவான இணையதள கருவிகள் உள்ளன: WebSearch தேடலுக்கு பொறுப்பானது, WebFetch பக்கம் உள்ளடக்கத்தைப் பிடிக்க பொறுப்பானது.
WebSearch மிகவும் எளிமையானது, நீங்கள் அதற்கு ஒரு தேடல் சொல் கொடுத்தால், அது தொடர்புடைய இணைப்புகள் மற்றும் தலைப்புகளை திரும்ப அளிக்கும். WebFetch கொஞ்சம் சிக்கலானது, நீங்கள் அதற்கு ஒரு URL மற்றும் ஒரு கேள்வி கொடுத்தால், அது பக்கம் உள்ளடக்கத்தைப் பிடிக்கும், Turndown நூலகத்தைப் பயன்படுத்தி HTML-ஐ Markdown-க்கு மாற்றி, 100KB-க்கு கீழே வெட்டும், பின்னர் ஒரு எளிய மாதிரி (Haiku) உங்களுக்கு சுருக்கமாகக் கூறும்.
சொல்லப் போனால், இந்த இரண்டு கருவிகள் ஒரு எளிய உலாவி மாதிரியானவை. பயன்படுத்தலாம், ஆனால் சில கடுமையான குறைகள் உள்ளன.
மிகவும் பெரிய பிரச்சினை JS-ஐ உருவாக்க முடியாதது. தற்போது பல இணையதளங்கள் SPA (ஒரே பக்கம் பயன்பாடு) ஆக உள்ளன, உள்ளடக்கம் JS மூலம் இயக்கமாக ஏற்றப்படுகிறது. X/Twitter, பல மின் வர்த்தக தளங்கள், பல்வேறு SaaS பின்னணி, WebFetch உண்மையான உள்ளடக்கத்தைப் பிடிக்க முடியாது, வெறும் ஒரு காலி கெட்டியில் மட்டுமே கிடைக்கும்.
எதிர்ப்பு பிடிக்கும் திறன் அடிப்படையில் பூஜ்யமாகவே உள்ளது. பிரதிநிதி சுழற்சியை ஆதரிக்காது, CAPTCHA சரிபார்ப்பு கொடுக்க முடியாது, எதிர்ப்பு பிடிக்கும் அமைப்புகள் உள்ள இணையதளங்களை சந்திக்கும்போது, அது வெறும் கைவிடவேண்டும்.
மற்றொரு வலியுறுத்தல் என்பது வெறும் உரை சுருக்கங்களை மட்டுமே திரும்ப அளிக்கிறது. நீங்கள் கட்டமைக்கப்பட்ட தரவுகளைப் (உதாரணமாக, பொருள் விலை அட்டவணை, பயனர் விமர்சனங்கள் பட்டியல், போட்டியாளர்களின் செயல்பாடுகளை ஒப்பிடுதல்) பெற விரும்பினால், WebFetch முடியாது, அது உங்களுக்கு எப்போதும் ஒரு சுருக்கமான உரையை அளிக்கும்.
இந்த மூன்று குறைகள் சேர்ந்து, Claude Code-ஐ தரவுகளைப் பிடிக்கும் விஷயத்தில் எப்போதும் எளிதாகப் பயன்படுத்த முடியாததாகக் கொண்டுவருகிறது. ஆனால் இப்போது ஒரு தீர்வு உள்ளது.
方法一:Apify Agent Skills
Apify என்பது ஒரு பழமையான கிளவுட் புழங்கும் தளம், இது இணையதளங்களைப் பிடிக்கவும், தானாகச் செயல்படுத்தவும் பல ஆண்டுகளாக உள்ளது. சமீபத்தில் அவர்கள் ஒரு தொகுப்பான Agent Skills-ஐ வெளியிட்டுள்ளனர், எளிதாகச் சொல்லப் போனால், AI Coding Agent-ஐ தரவுகளைப் பிடிக்க எப்படி செய்வதென்று கற்பிக்கும் முன்கூட்டியே தயாரிக்கப்பட்ட திறன்களின் தொகுப்பு.
GitHub仓库地址:https://github.com/apify/agent-skills
இந்த Skills Claude Code, Cursor, Codex, Gemini CLI போன்ற முக்கிய AI நிரலாக்க கருவிகளை ஆதரிக்கிறது. தற்போது மொத்தம் 12 திறன்கள் உள்ளன, பரந்த அளவிலான காட்சிகளை உள்ளடக்கியது.
மையமான apify-ultimate-scraper என்பது ஒரு பல்துறை புழங்கும் திறன், இது Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search போன்ற தளங்களின் தரவுகளைப் பிடிக்க முடியும். முக்கியமாக, இது கட்டமைக்கப்பட்ட தரவுகளை திரும்ப அளிக்கிறது, CSV அல்லது JSON-ஐ நேரடியாக ஏற்ற/export செய்யலாம், எளிதாகப் பயன்படுத்தலாம்.
மற்ற திறன்கள் போட்டியாளர்களின் பகுப்பாய்வு, பிராண்ட் புகழ் கண்காணிப்பு, மின் வர்த்தக தரவுகளைப் பிடித்தல், KOL கண்டுபிடித்தல், வாய்ப்பு பெறுதல், போக்குவரத்து பகுப்பாய்வு போன்ற காட்சிகளை உள்ளடக்கியது. நீங்கள் சந்தை ஆராய்ச்சி அல்லது வணிக தரவுப் பகுப்பாய்வு செய்யும் போது, இந்த தொகுப்பு மாயாஜாலமாக இருக்கும்.
Claude Code-ல் இந்த Skills-ஐ நிறுவுவது மிகவும் எளிது. முதலில், ஒரு Apify கணக்கு தேவை (apify.com-ல் பதிவு செய்யவும், இலவச அளவீடு உள்ளது), API Token-ஐப் பெற்ற பிறகு, நீங்கள் கட்டமைப்பைத் தொடங்கலாம்.
நிறுவல் இரண்டு படிகளாகப் பிரிக்கப்படுகிறது. முதலில் சந்தை மூலங்களைச் சேர்க்கவும்:/plugin marketplace add https://github.com/apify/agent-skills再安装你需要的技能,比如万能爬虫:
/plugin install apify-ultimate-scraper@apify-agent-skills也可以用通用的npx方式一次装完所有技能:
npx skills add apify/agent-skills安装后别忘了在项目根目录的 .env 文件里配上你的API Token:
APIFYTOKEN=你的token
比如抓取Youtube视频数据
这里说个关键点。Santiago在推文里反复强调,这个方案的核心优势是返回结构化数据。比如你让Claude Code帮你抓取某个电商平台的商品列表,拿到的是整理好的表格(品名、价格、评分、链接),可以直接拿来做分析,比WebFetch返回的文字摘要实用太多了。
Apify的计费模式是按结果付费,也就是说只有成功抓到数据才扣钱。不过对个人用户来说,免费额度够做不少事了。
方法二:Apify MCP Server
如果你想要更灵活的控制,或者Skills里没有覆盖到你的场景,还有第二条路:直接通过MCP(Model Context Protocol)接入Apify平台。
通过Apify MCP Server,Claude Code可以直接调用Apify Store里数千个现成的爬虫和自动化工具。
GitHub仓库地址:https://github.com/apify/apify-mcp-server
MCP方案配置也不复杂。推荐用托管的远程服务器方式,配置最省事。在你的MCP配置文件里加上:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer 你的APIFYTOKEN" } } } }如果你更喜欢本地运行,可以用Stdio方式:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "你的APIFYTOKEN" } } } }配好之后,Claude Code就能调用search-actors(搜索可用的爬虫)、call-actor(执行爬虫任务)、get-dataset-items(获取抓取结果)等工具了。
Skills和MCP方法可以都安装下,二者本身可以互补。
如果你的需求是高频的、场景固定的(比如每天抓一次竞品价格),用Skills更省心,预制的工作流开箱即用。
如果你的需求是临时的、场景多变的(今天抓社交媒体,明天抓政府公开数据),用MCP更灵活,Apify Store里有15000+的Actor可以随时调用。
两种方式前提都一样:需要Apify账号和API Token,需要Node.js 20.6+环境。
一定要注意一个时间节点:Apify MCP Server的SSE传输方式将在2026年4月1日废弃,届时需要更新为Streamable HTTP方式。如果你是现在开始配置,直接用上面推荐的配置就好,已经是新方式了。
其他值得关注的方案
Brave Search MCP என்பது Anthropic அதிகாரப்பூர்வமாக பரிந்துரைக்கப்பட்ட தேடல் திட்டமாகும், இது மாதத்திற்கு 2000 முறை இலவசமாக தேடலுக்கு உகந்தது, ஆனால் இது ஒரு தேடல் இயந்திரமாக மட்டுமே உள்ளது, கட்டமைக்கப்பட்ட தரவுகளை சேகரிக்க முடியாது.
Playwright MCP உண்மையான உலாவி உருவாக்கத்தை செய்ய முடியும், JavaScript இயக்கத்திற்கான பக்கங்களை கையாள முடியும், WebFetch கையாள முடியாத JS கனிமை வலைத்தளங்களுக்கு உகந்தது. ஆனால் இது தானியங்கி செயல்பாடுகளை மேற்கொள்வதில் அதிகமாக倾向மாக உள்ளது, Apify க்கு பெரிய அளவிலான தரவுகளை சேகரிக்க செய்வதில் எளிதாக இல்லை.
Bright Data MCP நிறுவன நிலை வழியை பின்பற்றுகிறது, பிரதிநிதி சுழற்சி மற்றும் CAPTCHA கையாளுதலை ஆதரிக்கிறது, 2026 இல் புதிய இலவச திட்டத்தை (மாதத்திற்கு 5000 முறை MCP கோரிக்கைகள்) அறிமுகம் செய்துள்ளது, இது எதிர்ப்பு பறிப்பு முறைமைகளை மீற வேண்டிய சூழ்நிலைகளுக்கு உகந்தது.
இந்த சில திட்டங்கள் ஒவ்வொன்றும் தனித்துவமாக கவனம் செலுத்துகின்றன, தேவைக்கேற்ப இணைக்கலாம். நான் தற்போது உள்ள கூட்டமைப்பு உள்ளமைவான WebFetch/WebSearch களை தினசரி தகவல்களை தேடுவதற்காக கையாள்கிறது, Apify Skills கட்டமைக்கப்பட்ட தரவுகளை சேகரிக்க கையாள்கிறது.
Claude Code இன் இணையதள திறன், உள்ளமைவான கருவிகள் தினசரி 80% சூழ்நிலைகளை மூடுகிறது, ஆனால் மீதமுள்ள 20% (JS உருவாக்கம், எதிர்ப்பு பறிப்பு, கட்டமைக்கப்பட்ட தரவுகள்) பல உண்மையான வேலைகளில் தவிர்க்க முடியாதவை. Apify இன் Agent Skills மற்றும் MCP Server இந்த இடைவெளியை நிரப்புகிறது, கட்டமைப்பு செயல்முறை மிகவும் சிக்கலானது அல்ல, தரவுகளை சேகரிக்க தேவையுள்ள மாணவர்களுக்கு முயற்சிக்க பரிந்துரைக்கிறேன்.

