Claude Code + Apify,无障碍抓取全网数据
Claude Code + Apify,无障碍抓取全网数据
မင်္ဂလာပါ၊ ကျွန်ုပ်သည်鲁工ဖြစ်ပါသည်။
Claude Code ကိုသုံးနေစဉ်၊ အထူးသဖြင့် Plan mode အတွင်းတွင် WebSearch ကိရိယာကို အသုံးပြု၍ ဝက်ဘ်စာမျက်နှာဒေတာကို ဖမ်းယူရန် လိုအပ်ချက်များ ရှိနေပါသည်။ သို့သော် Fetch error ဖြစ်ပေါ်မှုများကို မကြာခဏ တွေ့ကြရသည်။
ဒါက အဟောင်းပြဿနာတစ်ခုပါ။ Claude Code ၏ WebFetch နှင့် WebSearch ကိရိယာများကို အသုံးပြု၍ သတင်းအချက်အလက် ရှာဖွေရန်၊ သုတေသနလုပ်ရန် 80% အခြေအနေများတွင် လုံလောက်သည်၊ သို့သော် JS ရေးဆွဲထားသော စာမျက်နှာများ၊ ဝင်ရောက်ရန် လိုအပ်သော ဝက်ဘ်ဆိုက်များ သို့မဟုတ် 대규모 데이터 수집의 필요가 있을 때 내장 도구는 견디지 못합니다.
မနေ့က Santiago (@svpino၊ AI/ML နယ်ပယ်တွင် နာမည်ကြီး ဘလော့ဂါတစ်ဦး) က အစီအစဉ်တစ်ခုကို မျှဝေခဲ့သည်။ သူက Claude Code ကို အသုံးပြု၍ မည်သည့်ဝက်ဘ်ဆိုက်မှမဆို အချိန်နှင့်အမျှ ဖွဲ့စည်းထားသော ဒေတာများကို ဆွဲယူနိုင်သည်ဟု ပြောခဲ့သည်။ ပြန်လာသည်မှာ တိုက်ရိုက် အသုံးပြုနိုင်သော အချက်အလက်ဇယားဖြစ်ပြီး၊ အကြောင်းအရာတစ်ခုတည်းဖြစ်သော စာသားကြီးမဟုတ်ပါ။ ကျွန်ုပ်သည် စမ်းသပ်ခဲ့ပြီး အထူးသဖြင့် အသုံးဝင်သည်။
ယနေ့ Claude Code ကို အင်တာနက်မှ ဒေတာစုဆောင်းနိုင်မှုကို ထည့်သွင်းပေးရန် ဘယ်လိုလုပ်ရမည်ကို ပြောပြပါမည်။ နှစ်ခုသော လမ်းကြောင်းများရှိသည်၊ လိုအပ်ချက်အရ ရွေးချယ်ပါ။
Claude Code 内置联网工具的短板
Claude Code ၏ အတွင်းပိုင်းတွင် နှစ်ခုသော အင်တာနက်ကိရိယာများရှိသည်။ WebSearch သည် ရှာဖွေရန်တာဝန်ရှိပြီး WebFetch သည် စာမျက်နှာအကြောင်းအရာကို ဖမ်းယူရန်တာဝန်ရှိသည်။
WebSearch သည် အလွန်ရိုးရှင်းသည်၊ သင်သည် ၎င်းကို ရှာဖွေရန် စကားလုံးတစ်ခု ပေးပါက ၎င်းသည် ဆက်စပ်သော လင့်ခ်များနှင့် ခေါင်းစဉ်များကို ပြန်လည်ပေးသည်။ WebFetch သည် အနည်းငယ် ရှုပ်ထွေးသည်၊ သင်သည် ၎င်းကို URL နှင့် မေးခွန်းတစ်ခု ပေးပါက ၎င်းသည် စာမျက်နှာအကြောင်းအရာကို ဖမ်းယူပြီး Turndown စာကြည့်တိုက်ကို အသုံးပြု၍ HTML ကို Markdown သို့ ပြောင်းလဲပြီး 100KB အတွင်း ဖြတ်တောက်ပြီး လေးလံသော မော်ဒယ် (Haiku) တစ်ခုကို အသုံးပြု၍ သင့်အတွက် အကျဉ်းချုပ်ပေးသည်။
ရှင်းရှင်းလင်းလင်းပြောရမည်ဆိုရင်၊ ဤကိရိယာနှစ်ခုသည် ရိုးရှင်းသော ဘရောက်ဇာတစ်ခုသာဖြစ်သည်။ အသုံးပြုနိုင်သော်လည်း အချို့သော အခက်အခဲများရှိသည်။
အကြီးဆုံးပြဿနာမှာ JS ကို ရေးဆွဲ၍ မရနိုင်ပါ။ ယခုအခါ အများစုသော ဝက်ဘ်ဆိုက်များသည် SPA (Single Page Application) ဖြစ်ပြီး အကြောင်းအရာကို JS ဖြင့် ဒိုင်နမစ်အားဖြင့် လွှတ်တင်သည်။ X/Twitter၊ အများသော အွန်လိုင်းစျေးဝယ်ပလက်ဖောင်းများ၊ အမျိုးမျိုးသော SaaS နောက်ခံများတွင် WebFetch သည် အမှန်တကယ် အကြောင်းအရာကို ဖမ်းယူ၍ မရနိုင်ပါ၊ ငါတို့သည် အလွတ်အခွက်ကိုသာ ရရှိနိုင်ပါသည်။
反爬能力也基本为零。不支持代理轮转,不能处理CAPTCHA验证码,碰到有反爬机制的网站就只能开摆。
还有一个痛点是只返回文本摘要。如果你想拿到结构化的数据(比如商品价格表、用户评论列表、竞品功能对比),WebFetch做不到,它给你的永远是一段经过压缩的文字。
这三个短板加在一起,让Claude Code在数据采集这件事上始终缺乏易用性。但现在有了解决方案。
方法一:Apify Agent Skills
Apify 是一个老牌的云端爬虫平台,做网页抓取和自动化很多年了。最近他们推出了一套 Agent Skills,简单来说就是一组预制的技能包,专门教 AI Coding Agent 怎么做数据采集。
GitHub 仓库地址:https://github.com/apify/agent-skills
这套 Skills 支持 Claude Code、Cursor、Codex、Gemini CLI 等主流 AI 编程工具。目前一共有 12 个技能,覆盖面相当广。
核心的 apify-ultimate-scraper 是一个万能爬虫技能,可以抓取 Instagram、Facebook、TikTok、YouTube、Google Maps、Google Search 等平台的数据。关键是它返回的是结构化数据,可以直接导出 CSV 或 JSON,拿来就能用。
其他技能覆盖了竞品分析、品牌口碑监测、电商数据采集、KOL 发现、潜客获取、趋势分析等场景。如果你做市场调研或者商业数据分析,这一套简直是神奇。
在 Claude Code 里安装这套 Skills 也很方便。前提是需要一个 Apify 账号(去 apify.com 注册,有免费额度),拿到 API Token 后就可以开始配置。
安装分两步。先添加市场源:/plugin marketplace add https://github.com/apify/agent-skills သင်လိုအပ်သောကျွမ်းကျင်မှုများကိုထပ်မံထည့်သွင်းပါ၊ ဥပမာအားဖြင့် အထွေထွေဝင်ရိုး:
/plugin install apify-ultimate-scraper@apify-agent-skills သင်သည် အထွေထွေ npx နည်းလမ်းကိုအသုံးပြု၍ ကျွမ်းကျင်မှုအားလုံးကိုတစ်ကြိမ်တည်းထည့်သွင်းနိုင်သည်:
npx skills add apify/agent-skills ထည့်သွင်းပြီးနောက် သင်၏API Token ကို project root directory ၏ .env ဖိုင်တွင်ပြင်ဆင်ရန်မမေ့ပါနှင့်:
APIFYTOKEN=သင်၏token
ဥပမာ Youtube ဗီဒီယိုဒေတာကိုဖမ်းယူခြင်း
ဒီမှာ အရေးကြီးသောအချက်တစ်ချက်ကိုပြောပါမယ်။ Santiago သည် tweet များတွင် အကြိမ်ကြိမ်ထုတ်ဖော်ပြောဆိုခဲ့သည်မှာ ဒီအစီအစဉ်၏ အဓိကအားသာချက်မှာ ဖွဲ့စည်းထားသောဒေတာကိုပြန်လည်ပေးပို့ခြင်းဖြစ်သည်။ ဥပမာ သင်သည် Claude Code ကို သင်၏ e-commerce platform ၏ ကုန်ပစ္စည်းစာရင်းကိုဖမ်းယူရန်ပြောပါက၊ သင်သည် စုစည်းထားသောဇယား (ကုန်ပစ္စည်းအမည်၊ စျေးနှုန်း၊ အဆင့်သတ်မှတ်ချက်၊ လင့်ခ်) ကိုရရှိမည်ဖြစ်ပြီး၊ WebFetch မှပြန်လည်ပေးပို့သောစာသားအကျဉ်းချုပ်ထက် သုံးစွဲရန်ပိုအသုံးဝင်သည်။
Apify ၏ ငွေပေးချေမှုနည်းလမ်းသည် ရလဒ်အပေါ်မူတည်၍ ငွေပေးချေသည်၊ အဆိုပါဒေတာကိုအောင်မြင်စွာဖမ်းယူရင်သာ ငွေပေးချေမည်ဖြစ်သည်။ သို့သော် ကိုယ်ပိုင်အသုံးပြုသူများအတွက် အခမဲ့အရေအတွက်သည် အများအပြားလုပ်ဆောင်ရန်လုံလောက်သည်။
နည်းလမ်း ၂: Apify MCP Server
သင်သည် ပိုမိုလွယ်ကူသောထိန်းချုပ်မှုလိုအပ်ပါက သို့မဟုတ် Skills တွင် သင်၏အခြေအနေကို မဖုံးလွှမ်းပါက၊ ဒုတိယလမ်းတစ်ခုရှိသည်: Apify platform သို့တိုက်ရိုက် MCP (Model Context Protocol) ဖြင့်ဝင်ရောက်ပါ။
Apify MCP Server မှတဆင့် Claude Code သည် Apify Store တွင်ရှိသော ရှိပြီးသား ဝင်ရိုးများနှင့် အလိုအလျောက်ကိရိယာများကိုတိုက်ရိုက်ခေါ်ယူနိုင်သည်။
GitHub repository လိပ်စာ: https://github.com/apify/apify-mcp-server
MCP အစီအစဉ်ကို ပြင်ဆင်ရန်လည်း အခက်အခဲမရှိပါ။ အထောက်အကူပြုသော အဝင်ဝန်ဆောင်မှုကို အသုံးပြုရန် အကြံပြုပါသည်၊ ပြင်ဆင်ရန် အဆင်ပြေဆုံးဖြစ်သည်။ သင်၏ MCP ပြင်ဆင်မှုဖိုင်တွင် ထည့်ပါ:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer သင်၏APIFYTOKEN" } } } } သင်သည် ဒေသတွင်းတွင် လည်ပတ်ရန်ပိုကြိုက်ပါက Stdio နည်းလမ်းကိုအသုံးပြုနိုင်သည်:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "သင်၏APIFYTOKEN" } } } } ပြင်ဆင်ပြီးနောက် Claude Code သည် search-actors (ရရှိနိုင်သော ဝင်ရိုးများကိုရှာဖွေရန်)၊ call-actor (ဝင်ရိုးလုပ်ငန်းကိုအကောင်အထည်ဖော်ရန်)၊ get-dataset-items (ဖမ်းယူမှုရလဒ်ကိုရယူရန်) စသည်တို့ကိုခေါ်ယူနိုင်ပါပြီ။
Skills နှင့် MCP နည်းလမ်းများကို နှစ်ခုလုံးထည့်သွင်းနိုင်ပြီး၊ နှစ်ခုလုံးသည် အပြန်အလှန်ဖြည့်ဆည်းနိုင်သည်။
သင်၏လိုအပ်ချက်သည် အမြင့်မားသောအကြိမ်နှုန်းနှင့် အခြေအနေတိကျသော (ဥပမာ နေ့စဉ်ပြိုင်ဘက်ဈေးနှုန်းကိုဖမ်းယူခြင်း) ဖြစ်ပါက Skills ကိုအသုံးပြုရင် ပိုမိုစိတ်ချရသည်၊ ပြင်ဆင်ထားသော အလုပ်စဉ်များကို အထက်တွင်အသုံးပြုနိုင်သည်။
သင်၏လိုအပ်ချက်သည် အချိန်ပိုင်းနှင့် အခြေအနေများပြောင်းလဲသော (ယနေ့ လူမှုမီဒီယာကိုဖမ်းယူခြင်း၊ မနက်ဖြန် အစိုးရထုတ်ပြန်သောဒေတာကိုဖမ်းယူခြင်း) ဖြစ်ပါက MCP သည် ပိုမိုလွယ်ကူပြီး Apify Store တွင် 15000+ Actor များကို မည်သည့်အချိန်တွင်မဆိုခေါ်ယူနိုင်သည်။
နှစ်ခုလုံး၏ အခြေအနေသည် တူညီသည်: Apify အကောင့်နှင့် API Token လိုအပ်သည်၊ Node.js 20.6+ ပတ်ဝန်းကျင်လိုအပ်သည်။
အချိန်အချက်တစ်ချက်ကို သတိပြုရန်လိုအပ်သည်: Apify MCP Server ၏ SSE သယ်ယူပို့ဆောင်မှုနည်းလမ်းကို 2026 ခုနှစ် ဧပြီလ ၁ ရက်တွင် ဖျက်သိမ်းမည်ဖြစ်ပြီး၊ ထိုအချိန်တွင် Streamable HTTP နည်းလမ်းသို့ အပ်ဒိတ်လုပ်ရန်လိုအပ်သည်။ သင်သည် ယခုအချိန်တွင် ပြင်ဆင်နေပါက အထက်တွင်အကြံပြုထားသော ပြင်ဆင်မှုကို တိုက်ရိုက်အသုံးပြုပါ၊ ယင်းသည် အသစ်သောနည်းလမ်းဖြစ်ပါသည်။

