Claude Code + Apify,无障碍抓取全网数据

3/3/2026
3 min read

Claude Code + Apify,无障碍抓取全网数据

Claude Code + Apifyမင်္ဂလာပါ၊ ကျွန်ုပ်သည်鲁工ဖြစ်ပါသည်။

Claude Code ကိုသုံးနေစဉ်၊ အထူးသဖြင့် Plan mode အတွင်းတွင် WebSearch ကိရိယာကို အသုံးပြု၍ ဝက်ဘ်စာမျက်နှာဒေတာကို ဖမ်းယူရန် လိုအပ်ချက်များ ရှိနေပါသည်။ သို့သော် Fetch error ဖြစ်ပေါ်မှုများကို မကြာခဏ တွေ့ကြရသည်။

ဒါက အဟောင်းပြဿနာတစ်ခုပါ။ Claude Code ၏ WebFetch နှင့် WebSearch ကိရိယာများကို အသုံးပြု၍ သတင်းအချက်အလက် ရှာဖွေရန်၊ သုတေသနလုပ်ရန် 80% အခြေအနေများတွင် လုံလောက်သည်၊ သို့သော် JS ရေးဆွဲထားသော စာမျက်နှာများ၊ ဝင်ရောက်ရန် လိုအပ်သော ဝက်ဘ်ဆိုက်များ သို့မဟုတ် 대규모 데이터 수집의 필요가 있을 때 내장 도구는 견디지 못합니다.

မနေ့က Santiago (@svpino၊ AI/ML နယ်ပယ်တွင် နာမည်ကြီး ဘလော့ဂါတစ်ဦး) က အစီအစဉ်တစ်ခုကို မျှဝေခဲ့သည်။ သူက Claude Code ကို အသုံးပြု၍ မည်သည့်ဝက်ဘ်ဆိုက်မှမဆို အချိန်နှင့်အမျှ ဖွဲ့စည်းထားသော ဒေတာများကို ဆွဲယူနိုင်သည်ဟု ပြောခဲ့သည်။ ပြန်လာသည်မှာ တိုက်ရိုက် အသုံးပြုနိုင်သော အချက်အလက်ဇယားဖြစ်ပြီး၊ အကြောင်းအရာတစ်ခုတည်းဖြစ်သော စာသားကြီးမဟုတ်ပါ။ ကျွန်ုပ်သည် စမ်းသပ်ခဲ့ပြီး အထူးသဖြင့် အသုံးဝင်သည်။

ယနေ့ Claude Code ကို အင်တာနက်မှ ဒေတာစုဆောင်းနိုင်မှုကို ထည့်သွင်းပေးရန် ဘယ်လိုလုပ်ရမည်ကို ပြောပြပါမည်။ နှစ်ခုသော လမ်းကြောင်းများရှိသည်၊ လိုအပ်ချက်အရ ရွေးချယ်ပါ။

Claude Code 内置联网工具的短板

Claude Code ၏ အတွင်းပိုင်းတွင် နှစ်ခုသော အင်တာနက်ကိရိယာများရှိသည်။ WebSearch သည် ရှာဖွေရန်တာဝန်ရှိပြီး WebFetch သည် စာမျက်နှာအကြောင်းအရာကို ဖမ်းယူရန်တာဝန်ရှိသည်။

WebSearch သည် အလွန်ရိုးရှင်းသည်၊ သင်သည် ၎င်းကို ရှာဖွေရန် စကားလုံးတစ်ခု ပေးပါက ၎င်းသည် ဆက်စပ်သော လင့်ခ်များနှင့် ခေါင်းစဉ်များကို ပြန်လည်ပေးသည်။ WebFetch သည် အနည်းငယ် ရှုပ်ထွေးသည်၊ သင်သည် ၎င်းကို URL နှင့် မေးခွန်းတစ်ခု ပေးပါက ၎င်းသည် စာမျက်နှာအကြောင်းအရာကို ဖမ်းယူပြီး Turndown စာကြည့်တိုက်ကို အသုံးပြု၍ HTML ကို Markdown သို့ ပြောင်းလဲပြီး 100KB အတွင်း ဖြတ်တောက်ပြီး လေးလံသော မော်ဒယ် (Haiku) တစ်ခုကို အသုံးပြု၍ သင့်အတွက် အကျဉ်းချုပ်ပေးသည်။

ရှင်းရှင်းလင်းလင်းပြောရမည်ဆိုရင်၊ ဤကိရိယာနှစ်ခုသည် ရိုးရှင်းသော ဘရောက်ဇာတစ်ခုသာဖြစ်သည်။ အသုံးပြုနိုင်သော်လည်း အချို့သော အခက်အခဲများရှိသည်။

အကြီးဆုံးပြဿနာမှာ JS ကို ရေးဆွဲ၍ မရနိုင်ပါ။ ယခုအခါ အများစုသော ဝက်ဘ်ဆိုက်များသည် SPA (Single Page Application) ဖြစ်ပြီး အကြောင်းအရာကို JS ဖြင့် ဒိုင်နမစ်အားဖြင့် လွှတ်တင်သည်။ X/Twitter၊ အများသော အွန်လိုင်းစျေးဝယ်ပလက်ဖောင်းများ၊ အမျိုးမျိုးသော SaaS နောက်ခံများတွင် WebFetch သည် အမှန်တကယ် အကြောင်းအရာကို ဖမ်းယူ၍ မရနိုင်ပါ၊ ငါတို့သည် အလွတ်အခွက်ကိုသာ ရရှိနိုင်ပါသည်။

反爬能力也基本为零。不支持代理轮转,不能处理CAPTCHA验证码,碰到有反爬机制的网站就只能开摆。

还有一个痛点是只返回文本摘要。如果你想拿到结构化的数据(比如商品价格表、用户评论列表、竞品功能对比),WebFetch做不到,它给你的永远是一段经过压缩的文字。

这三个短板加在一起,让Claude Code在数据采集这件事上始终缺乏易用性。但现在有了解决方案。

方法一:Apify Agent Skills

Apify 是一个老牌的云端爬虫平台,做网页抓取和自动化很多年了。最近他们推出了一套 Agent Skills,简单来说就是一组预制的技能包,专门教 AI Coding Agent 怎么做数据采集。

GitHub 仓库地址:https://github.com/apify/agent-skills

这套 Skills 支持 Claude Code、Cursor、Codex、Gemini CLI 等主流 AI 编程工具。目前一共有 12 个技能,覆盖面相当广。

核心的 apify-ultimate-scraper 是一个万能爬虫技能,可以抓取 Instagram、Facebook、TikTok、YouTube、Google Maps、Google Search 等平台的数据。关键是它返回的是结构化数据,可以直接导出 CSV 或 JSON,拿来就能用。

其他技能覆盖了竞品分析、品牌口碑监测、电商数据采集、KOL 发现、潜客获取、趋势分析等场景。如果你做市场调研或者商业数据分析,这一套简直是神奇。

在 Claude Code 里安装这套 Skills 也很方便。前提是需要一个 Apify 账号(去 apify.com 注册,有免费额度),拿到 API Token 后就可以开始配置。

安装分两步。先添加市场源:/plugin marketplace add https://github.com/apify/agent-skills သင်လိုအပ်သောကျွမ်းကျင်မှုများကိုထပ်မံထည့်သွင်းပါ၊ ဥပမာအားဖြင့် အထွေထွေဝင်ရိုး:

/plugin install apify-ultimate-scraper@apify-agent-skills သင်သည် အထွေထွေ npx နည်းလမ်းကိုအသုံးပြု၍ ကျွမ်းကျင်မှုအားလုံးကိုတစ်ကြိမ်တည်းထည့်သွင်းနိုင်သည်:

npx skills add apify/agent-skills ထည့်သွင်းပြီးနောက် သင်၏API Token ကို project root directory ၏ .env ဖိုင်တွင်ပြင်ဆင်ရန်မမေ့ပါနှင့်:

APIFYTOKEN=သင်၏token

ဥပမာ Youtube ဗီဒီယိုဒေတာကိုဖမ်းယူခြင်း

ဒီမှာ အရေးကြီးသောအချက်တစ်ချက်ကိုပြောပါမယ်။ Santiago သည် tweet များတွင် အကြိမ်ကြိမ်ထုတ်ဖော်ပြောဆိုခဲ့သည်မှာ ဒီအစီအစဉ်၏ အဓိကအားသာချက်မှာ ဖွဲ့စည်းထားသောဒေတာကိုပြန်လည်ပေးပို့ခြင်းဖြစ်သည်။ ဥပမာ သင်သည် Claude Code ကို သင်၏ e-commerce platform ၏ ကုန်ပစ္စည်းစာရင်းကိုဖမ်းယူရန်ပြောပါက၊ သင်သည် စုစည်းထားသောဇယား (ကုန်ပစ္စည်းအမည်၊ စျေးနှုန်း၊ အဆင့်သတ်မှတ်ချက်၊ လင့်ခ်) ကိုရရှိမည်ဖြစ်ပြီး၊ WebFetch မှပြန်လည်ပေးပို့သောစာသားအကျဉ်းချုပ်ထက် သုံးစွဲရန်ပိုအသုံးဝင်သည်။

Apify ၏ ငွေပေးချေမှုနည်းလမ်းသည် ရလဒ်အပေါ်မူတည်၍ ငွေပေးချေသည်၊ အဆိုပါဒေတာကိုအောင်မြင်စွာဖမ်းယူရင်သာ ငွေပေးချေမည်ဖြစ်သည်။ သို့သော် ကိုယ်ပိုင်အသုံးပြုသူများအတွက် အခမဲ့အရေအတွက်သည် အများအပြားလုပ်ဆောင်ရန်လုံလောက်သည်။

နည်းလမ်း ၂: Apify MCP Server

သင်သည် ပိုမိုလွယ်ကူသောထိန်းချုပ်မှုလိုအပ်ပါက သို့မဟုတ် Skills တွင် သင်၏အခြေအနေကို မဖုံးလွှမ်းပါက၊ ဒုတိယလမ်းတစ်ခုရှိသည်: Apify platform သို့တိုက်ရိုက် MCP (Model Context Protocol) ဖြင့်ဝင်ရောက်ပါ။

Apify MCP Server မှတဆင့် Claude Code သည် Apify Store တွင်ရှိသော ရှိပြီးသား ဝင်ရိုးများနှင့် အလိုအလျောက်ကိရိယာများကိုတိုက်ရိုက်ခေါ်ယူနိုင်သည်။

GitHub repository လိပ်စာ: https://github.com/apify/apify-mcp-server

MCP အစီအစဉ်ကို ပြင်ဆင်ရန်လည်း အခက်အခဲမရှိပါ။ အထောက်အကူပြုသော အဝင်ဝန်ဆောင်မှုကို အသုံးပြုရန် အကြံပြုပါသည်၊ ပြင်ဆင်ရန် အဆင်ပြေဆုံးဖြစ်သည်။ သင်၏ MCP ပြင်ဆင်မှုဖိုင်တွင် ထည့်ပါ:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer သင်၏APIFYTOKEN" } } } } သင်သည် ဒေသတွင်းတွင် လည်ပတ်ရန်ပိုကြိုက်ပါက Stdio နည်းလမ်းကိုအသုံးပြုနိုင်သည်:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "သင်၏APIFYTOKEN" } } } } ပြင်ဆင်ပြီးနောက် Claude Code သည် search-actors (ရရှိနိုင်သော ဝင်ရိုးများကိုရှာဖွေရန်)၊ call-actor (ဝင်ရိုးလုပ်ငန်းကိုအကောင်အထည်ဖော်ရန်)၊ get-dataset-items (ဖမ်းယူမှုရလဒ်ကိုရယူရန်) စသည်တို့ကိုခေါ်ယူနိုင်ပါပြီ။

Skills နှင့် MCP နည်းလမ်းများကို နှစ်ခုလုံးထည့်သွင်းနိုင်ပြီး၊ နှစ်ခုလုံးသည် အပြန်အလှန်ဖြည့်ဆည်းနိုင်သည်။

သင်၏လိုအပ်ချက်သည် အမြင့်မားသောအကြိမ်နှုန်းနှင့် အခြေအနေတိကျသော (ဥပမာ နေ့စဉ်ပြိုင်ဘက်ဈေးနှုန်းကိုဖမ်းယူခြင်း) ဖြစ်ပါက Skills ကိုအသုံးပြုရင် ပိုမိုစိတ်ချရသည်၊ ပြင်ဆင်ထားသော အလုပ်စဉ်များကို အထက်တွင်အသုံးပြုနိုင်သည်။

သင်၏လိုအပ်ချက်သည် အချိန်ပိုင်းနှင့် အခြေအနေများပြောင်းလဲသော (ယနေ့ လူမှုမီဒီယာကိုဖမ်းယူခြင်း၊ မနက်ဖြန် အစိုးရထုတ်ပြန်သောဒေတာကိုဖမ်းယူခြင်း) ဖြစ်ပါက MCP သည် ပိုမိုလွယ်ကူပြီး Apify Store တွင် 15000+ Actor များကို မည်သည့်အချိန်တွင်မဆိုခေါ်ယူနိုင်သည်။

နှစ်ခုလုံး၏ အခြေအနေသည် တူညီသည်: Apify အကောင့်နှင့် API Token လိုအပ်သည်၊ Node.js 20.6+ ပတ်ဝန်းကျင်လိုအပ်သည်။

အချိန်အချက်တစ်ချက်ကို သတိပြုရန်လိုအပ်သည်: Apify MCP Server ၏ SSE သယ်ယူပို့ဆောင်မှုနည်းလမ်းကို 2026 ခုနှစ် ဧပြီလ ၁ ရက်တွင် ဖျက်သိမ်းမည်ဖြစ်ပြီး၊ ထိုအချိန်တွင် Streamable HTTP နည်းလမ်းသို့ အပ်ဒိတ်လုပ်ရန်လိုအပ်သည်။ သင်သည် ယခုအချိန်တွင် ပြင်ဆင်နေပါက အထက်တွင်အကြံပြုထားသော ပြင်ဆင်မှုကို တိုက်ရိုက်အသုံးပြုပါ၊ ယင်းသည် အသစ်သောနည်းလမ်းဖြစ်ပါသည်။

အခြားသတိပြုရန်အကြံပြုချက်များBrave Search MCP是Anthropic官方推荐的搜索方案,每月2000次免费查询,适合日常搜索补充,但它只是搜索引擎,不能做结构化数据采集。

Playwright MCP可以做真正的浏览器渲染,能处理JavaScript动态页面,适合那些WebFetch搞不定的JS重度站点。但它更偏向自动化操作,不如Apify方便做大规模数据采集。

Bright Data MCP走的是企业级路线,支持代理轮转和CAPTCHA处理,2026年新推了一个免费档(每月5000次MCP请求),适合需要突破反爬机制的场景。

这几个方案各有侧重,可以按需搭配。我现在的组合是内置WebFetch/WebSearch处理日常查资料的需求,Apify Skills处理结构化数据采集。

Claude Code的联网能力,内置工具能覆盖日常80%的场景,但那剩下的20%(JS渲染、反爬、结构化数据)恰恰是很多实际工作中绕不开的。Apify的Agent Skills和MCP Server把这个缺口补上了,配置过程也不复杂,非常推荐有数据采集需求的同学试试。

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy ပြင်ဆင်မှု လမ်းညွှန်: မီးလောင် Legend အဆင့် အိမ်မွေးတိရစ္ဆာန်ရယူရန် ဘယ်လိုလုပ်မလဲ

Claude Code Buddy ပြင်ဆင်မှု လမ်းညွှန်: မီးလောင် Legend အဆင့် အိမ်မွေးတိရစ္ဆာန်ရယူရန် 2026 ခုနှစ် ဧပြီလ 1 ရက်နေ့တွင် Ant...

Obsidian သည် Defuddle ကို ထုတ်လုပ်ပြီး Obsidian Web Clipper ကို အသစ်အဆန်းအဆင့်သို့ ရောက်ရှိစေသည်Technology

Obsidian သည် Defuddle ကို ထုတ်လုပ်ပြီး Obsidian Web Clipper ကို အသစ်အဆန်းအဆင့်သို့ ရောက်ရှိစေသည်

Obsidian သည် Defuddle ကို ထုတ်လုပ်ပြီး Obsidian Web Clipper ကို အသစ်အဆန်းအဆင့်သို့ ရောက်ရှိစေသည် ကျွန်ုပ်သည် Obsidian ၏...

OpenAI သည် "သုံးလုံးပေါင်း" ကို အထူးသဖြင့် ကြေညာသည်။: ဘရောက်ဇာ + ပရိုဂရမ်မင်း + ChatGPT ပေါင်းစည်းခြင်း၊ အတွင်းပိုင်းတွင် မနှစ်က လမ်းမှားခဲ့ကြောင်း အသိအမှတ်ပြုသည်။Technology

OpenAI သည် "သုံးလုံးပေါင်း" ကို အထူးသဖြင့် ကြေညာသည်။: ဘရောက်ဇာ + ပရိုဂရမ်မင်း + ChatGPT ပေါင်းစည်းခြင်း၊ အတွင်းပိုင်းတွင် မနှစ်က လမ်းမှားခဲ့ကြောင်း အသိအမှတ်ပြုသည်။

OpenAI သည် "သုံးလုံးပေါင်း" ကို အထူးသဖြင့် ကြေညာသည်။: ဘရောက်ဇာ + ပရိုဂရမ်မင်း + ChatGPT ပေါင်းစည်းခြင်း၊ အတွင်းပိုင်းတွင...

2026,不再逼自己"自律"!做好这8件小事,健康自然来Health

2026,不再逼自己"自律"!做好这8件小事,健康自然来

2026,不再逼自己"自律"!做好这8件小事,健康自然来 အသစ်သောနှစ်တစ်နှစ်စတင်လာပြီ၊ မနှစ်က သင်ထားခဲ့သော Flag (ရည်မှန်းချက်) ကို ရောက်ရှိခဲ့ပါသလား...

那些努力减肥瘦不下来的妈妈们,绝对都栽在这里Health

那些努力减肥瘦不下来的妈妈们,绝对都栽在这里

#那些努力减肥瘦不下来的妈妈们,绝对都栽在这里 三月已过半,你的减肥大计,怎样了?瘦了没?瘦了多少? ##我的减肥经历 从我2月底励志说要减肥,确实是经历了越减越肥,体重屡创新高。 为什么3.2,3.7,体重就会飙?呵呵,因为经历了周末...

📝
Technology

AI Browser 24小時穩定運行指南

AI Browser 24小時穩定運行指南 本教程介紹如何搭建一個 穩定、長期運行的 AI 瀏覽器環境。 適用於 AI Agent 自動化瀏覽 Web automation AI 助手 自動測試系統 目標 瀏覽器 24小時運行 自動 re...