Claude Code + Apify,无障碍抓取全网数据

3/3/2026
2 min read

Claude Code + Apify,无障碍抓取全网数据

Claude Code + Apifyสวัสดีครับ ทุกคน ผมคือ鲁工。

เมื่อทุกคนใช้ Claude Code โดยเฉพาะในโหมด Plan มักจะมีความต้องการในการใช้เครื่องมือ WebSearch เพื่อดึงข้อมูลจากเว็บ แต่บ่อยครั้งจะพบกับปัญหา Fetch error

นี่เป็นปัญหาเก่าแล้ว การใช้เครื่องมือ WebFetch และ WebSearch ที่มาพร้อมกับ Claude Code ในการค้นหาข้อมูลและทำการวิจัย ใน 80% ของสถานการณ์ถือว่าเพียงพอ แต่เมื่อเจอกับหน้าเว็บที่มีการเรนเดอร์ด้วย JS, เว็บไซต์ที่ต้องล็อกอิน หรือความต้องการในการเก็บข้อมูลขนาดใหญ่ เครื่องมือในตัวก็ไม่สามารถรองรับได้

เมื่อสองวันที่ผ่านมา ผมเห็น Santiago (@svpino, บล็อกเกอร์ที่มีชื่อเสียงในด้าน AI/ML) แบ่งปันชุดแนวทาง เขาบอกว่าสามารถใช้ Claude Code ดึงข้อมูลเชิงโครงสร้างแบบเรียลไทม์จากเว็บไซต์ใดก็ได้ โดยผลลัพธ์จะเป็นตารางที่สามารถใช้งานได้ทันที ไม่ใช่ข้อความยาวๆ สรุป ผมลองใช้ดูแล้วมันใช้งานได้ดีจริงๆ

วันนี้เราจะมาพูดคุยกันว่าเราจะติดตั้งความสามารถในการเก็บข้อมูลจากทั่วเว็บให้กับ Claude Code ได้อย่างไร มีสองเส้นทางให้เลือกตามความต้องการ

ข้อจำกัดของเครื่องมือเชื่อมต่อในตัวของ Claude Code

Claude Code มาพร้อมกับเครื่องมือเชื่อมต่อสองตัว: WebSearch รับผิดชอบในการค้นหา, WebFetch รับผิดชอบในการดึงเนื้อหาจากหน้าเว็บ

WebSearch ค่อนข้างง่าย คุณให้คำค้นกับมัน มันจะส่งกลับลิงก์และหัวข้อที่เกี่ยวข้อง WebFetch จะซับซ้อนขึ้นเล็กน้อย คุณให้ URL และคำถาม มันจะดึงเนื้อหาจากหน้าเว็บ โดยใช้ไลบรารี Turndown แปลง HTML เป็น Markdown ตัดให้เหลือไม่เกิน 100KB และใช้โมเดลน้ำหนักเบา (Haiku) ช่วยสรุป

พูดง่ายๆ ว่า เครื่องมือทั้งสองนี้เป็นเบราว์เซอร์เวอร์ชันง่าย มันใช้งานได้ แต่มีข้อบกพร่องหลายประการ

ปัญหาที่ใหญ่ที่สุดคือไม่สามารถเรนเดอร์ JS ได้ ปัจจุบันเว็บไซต์จำนวนมากเป็น SPA (Single Page Application) เนื้อหาขึ้นอยู่กับการโหลดแบบไดนามิกด้วย JS X/Twitter, แพลตฟอร์มอีคอมเมิร์ซหลายแห่ง, และ SaaS แบ็คเอนด์ต่างๆ WebFetch ไม่สามารถดึงเนื้อหาจริงได้ ต้องได้แค่เปลือกว่างๆ

ความสามารถในการป้องกันการเก็บข้อมูลก็แทบจะเป็นศูนย์ ไม่รองรับการหมุนเวียนพร็อกซี ไม่สามารถจัดการกับ CAPTCHA ได้ เมื่อเจอเว็บไซต์ที่มีระบบป้องกันการเก็บข้อมูลก็ต้องยอมแพ้

อีกหนึ่งจุดที่น่าปวดหัวคือมันจะส่งกลับแค่ข้อความสรุป หากคุณต้องการข้อมูลเชิงโครงสร้าง (เช่น ตารางราคาสินค้า, รายการความคิดเห็นของผู้ใช้, การเปรียบเทียบฟังก์ชันของคู่แข่ง) WebFetch ทำไม่ได้ มันจะให้คุณแค่ข้อความที่ถูกบีบอัด

ข้อจำกัดทั้งสามนี้รวมกันทำให้ Claude Code ขาดความสะดวกในการเก็บข้อมูล แต่ตอนนี้มีวิธีแก้ไขแล้ว

วิธีที่หนึ่ง: Apify Agent Skills

Apify เป็นแพลตฟอร์มการเก็บข้อมูลบนคลาวด์ที่มีชื่อเสียง ทำการเก็บข้อมูลจากเว็บและอัตโนมัติมานานหลายปี ล่าสุดพวกเขาได้เปิดตัวชุด Agent Skills ซึ่งพูดง่ายๆ ก็คือชุดทักษะที่เตรียมไว้ล่วงหน้า เพื่อสอน AI Coding Agent ว่าจะทำการเก็บข้อมูลอย่างไร

ที่อยู่ GitHub ของคลังข้อมูล: https://github.com/apify/agent-skills

ชุด Skills นี้รองรับ Claude Code, Cursor, Codex, Gemini CLI และเครื่องมือการเขียนโปรแกรม AI อื่นๆ ขณะนี้มีทั้งหมด 12 ทักษะ ครอบคลุมหลายด้าน

ทักษะหลัก apify-ultimate-scraper เป็นทักษะการเก็บข้อมูลที่สามารถเก็บข้อมูลจากแพลตฟอร์มต่างๆ เช่น Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search เป็นต้น สิ่งสำคัญคือมันส่งกลับข้อมูลเชิงโครงสร้างที่สามารถส่งออกเป็น CSV หรือ JSON ได้ ใช้งานได้ทันที

ทักษะอื่นๆ ครอบคลุมการวิเคราะห์คู่แข่ง, การตรวจสอบชื่อเสียงของแบรนด์, การเก็บข้อมูลอีคอมเมิร์ซ, การค้นหา KOL, การดึงข้อมูลลูกค้าเป้าหมาย, การวิเคราะห์แนวโน้ม ฯลฯ หากคุณทำการวิจัยตลาดหรือการวิเคราะห์ข้อมูลเชิงพาณิชย์ ชุดนี้ถือว่ายอดเยี่ยมมาก

การติดตั้งชุด Skills นี้ใน Claude Code ก็สะดวกมาก เงื่อนไขคือคุณต้องมีบัญชี Apify (ไปที่ apify.com ลงทะเบียน มีโควตาฟรี) หลังจากได้รับ API Token แล้วคุณก็สามารถเริ่มการตั้งค่าได้

การติดตั้งแบ่งออกเป็นสองขั้นตอน ขั้นแรกเพิ่มแหล่งข้อมูลตลาด:/plugin marketplace add https://github.com/apify/agent-skills再安装你需要的技能,比如万能爬虫:/plugin install apify-ultimate-scraper@apify-agent-skills也可以用通用的npx方式一次装完所有技能:npx skills add apify/agent-skills安装后别忘了在项目根目录的 .env 文件里配上你的API Token:APIFYTOKEN=你的token### 比如抓取Youtube视频数据这里说个关键点。Santiago在推文里反复强调,这个方案的核心优势是返回结构化数据。比如你让Claude Code帮你抓取某个电商平台的商品列表,拿到的是整理好的表格(品名、价格、评分、链接),可以直接拿来做分析,比WebFetch返回的文字摘要实用太多了。Apify的计费模式是按结果付费,也就是说只有成功抓到数据才扣钱。不过对个人用户来说,免费额度够做不少事了。## 方法二:Apify MCP Server如果你想要更灵活的控制,或者Skills里没有覆盖到你的场景,还有第二条路:直接通过MCP(Model Context Protocol)接入Apify平台。通过Apify MCP Server,Claude Code可以直接调用Apify Store里数千个现成的爬虫和自动化工具。GitHub仓库地址:https://github.com/apify/apify-mcp-serverMCP方案配置也不复杂。推荐用托管的远程服务器方式,配置最省事。在你的MCP配置文件里加上:{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer 你的APIFYTOKEN" } } }}如果你更喜欢本地运行,可以用Stdio方式:{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "你的APIFYTOKEN" } } }}配好之后,Claude Code就能调用search-actors(搜索可用的爬虫)、call-actor(执行爬虫任务)、get-dataset-items(获取抓取结果)等工具了。Skills和MCP方法可以都安装下,二者本身可以互补。如果你的需求是高频的、场景固定的(比如每天抓一次竞品价格),用Skills更省心,预制的工作流开箱即用。如果你的需求是临时的、场景多变的(今天抓社交媒体,明天抓政府公开数据),用MCP更灵活,Apify Store里有15000+的Actor可以随时调用。两种方式前提都一样:需要Apify账号和API Token,需要Node.js 20.6+环境。一定要注意一个时间节点:Apify MCP Server的SSE传输方式将在2026年4月1日废弃,届时需要更新为Streamable HTTP方式。如果你是现在开始配置,直接用上面推荐的配置就好,已经是新方式了。## 其他值得关注的方案Brave Search MCP เป็นโซลูชันการค้นหาที่ได้รับการแนะนำโดย Anthropic ซึ่งให้การค้นหาฟรี 2000 ครั้งต่อเดือน เหมาะสำหรับการค้นหาประจำวัน แต่เป็นเพียงเครื่องมือค้นหา ไม่สามารถทำการเก็บข้อมูลเชิงโครงสร้างได้

Playwright MCP สามารถทำการเรนเดอร์ในเบราว์เซอร์จริง สามารถจัดการกับหน้าเว็บที่มี JavaScript แบบไดนามิก เหมาะสำหรับเว็บไซต์ที่มีการใช้ JS หนักซึ่ง WebFetch ไม่สามารถจัดการได้ แต่มีแนวโน้มที่จะทำงานอัตโนมัติ ไม่สะดวกเท่า Apify ในการเก็บข้อมูลขนาดใหญ่

Bright Data MCP มุ่งเน้นไปที่ระดับองค์กร รองรับการหมุนเวียนพร็อกซีและการจัดการ CAPTCHA ในปี 2026 ได้เปิดตัวแผนฟรีใหม่ (5000 คำขอ MCP ต่อเดือน) เหมาะสำหรับสถานการณ์ที่ต้องการหลีกเลี่ยงกลไกป้องกันการเก็บข้อมูล

โซลูชันเหล่านี้มีจุดเด่นที่แตกต่างกัน สามารถเลือกใช้ตามความต้องการ ปัจจุบันการรวมกันของฉันคือการใช้ WebFetch/WebSearch ในการจัดการความต้องการค้นหาข้อมูลประจำวัน และ Apify Skills ในการเก็บข้อมูลเชิงโครงสร้าง

ความสามารถในการเชื่อมต่อของ Claude Code เครื่องมือในตัวสามารถครอบคลุมสถานการณ์ประจำวันได้ถึง 80% แต่ 20% ที่เหลือ (การเรนเดอร์ JS, การป้องกันการเก็บข้อมูล, ข้อมูลเชิงโครงสร้าง) เป็นสิ่งที่หลีกเลี่ยงไม่ได้ในงานจริง Apify's Agent Skills และ MCP Server ช่วยเติมเต็มช่องว่างนี้ และกระบวนการตั้งค่าไม่ซับซ้อน แนะนำอย่างยิ่งสำหรับนักเรียนที่มีความต้องการในการเก็บข้อมูลให้ลองใช้ดู.

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy แก้ไขคู่มือ: วิธีการรับสัตว์เลี้ยงระดับตำนานที่เปล่งประกาย

Claude Code Buddy แก้ไขคู่มือ: วิธีการรับสัตว์เลี้ยงระดับตำนานที่เปล่งประกาย วันที่ 1 เมษายน 2026, Anthropic ได้เปิดตัวฟ...

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่Technology

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่

Obsidian เปิดตัว Defuddle ยกระดับ Obsidian Web Clipper สู่ระดับใหม่ ฉันชอบแนวคิดหลักของ Obsidian มาตลอด: เน้นที่การจัดเ...

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了Technology

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了

OpenAI突然宣布"三合一":浏览器+编程+ChatGPT合并,内部承认过去一年走错了 ในคืนวันที่ 19 มีนาคม 2026 มีการรั่วไหลของบันทึกภายในจากสำนักงานใหญ่ของ Op...

2026,不再逼自己"自律"!做好这8件小事,健康自然来Health

2026,不再逼自己"自律"!做好这8件小事,健康自然来

2026,不再逼自己"自律"!做好这8件小事,健康自然来 ปีใหม่เริ่มต้นขึ้นแล้ว ปีที่แล้วคุณทำตามเป้าหมายที่ตั้งไว้หรือยัง? คุณเคยรู้สึกสับสนระหว่า...

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้Health

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้

แม่ๆ ที่พยายามลดน้ำหนักแต่ไม่สำเร็จ แน่นอนว่าต้องเจอปัญหานี้ เดือนมีนาคมผ่านไปครึ่งหนึ่งแล้ว แผนการลดน้ำหนักของคุณเป็นอ...

📝
Technology

AI Browser 24 ชั่วโมงการทำงานที่เสถียร

AI Browser 24 ชั่วโมงการทำงานที่เสถียร บทแนะนำนี้จะอธิบายวิธีการตั้งค่า สภาพแวดล้อม AI เบราว์เซอร์ที่เสถียรและทำงานได้ยา...