Claude Code + Apify, thu thập dữ liệu toàn mạng không rào cản

3/3/2026
10 min read

Claude Code + Apify, thu thập dữ liệu toàn mạng không rào cản

Claude Code + ApifyXin chào mọi người, tôi là Lu Gong.

Khi mọi người sử dụng Claude Code, đặc biệt là trong chế độ Plan, thường sẽ có nhu cầu sử dụng công cụ WebSearch để thu thập dữ liệu từ trang web. Nhưng thường xuyên gặp phải tình trạng Fetch error.

Thực ra đây là một vấn đề cũ. Sử dụng công cụ WebFetch và WebSearch tích hợp sẵn của Claude Code, để tìm kiếm thông tin, làm nghiên cứu, trong 80% các tình huống là đủ dùng, nhưng khi gặp phải các trang được render bằng JS, các trang cần đăng nhập, hoặc nhu cầu thu thập dữ liệu quy mô lớn, các công cụ tích hợp không thể đáp ứng được.

Vài ngày trước, tôi thấy Santiago (@svpino, một blogger nổi tiếng trong lĩnh vực AI/ML) chia sẻ một giải pháp, anh ấy nói có thể sử dụng Claude Code để kéo dữ liệu có cấu trúc theo thời gian thực từ bất kỳ trang web nào, trả về là bảng có thể sử dụng trực tiếp, không phải là một đoạn tóm tắt dài. Tôi đã thử nghiệm và thực sự rất hữu ích.

Hôm nay tôi sẽ nói về cách trang bị khả năng thu thập dữ liệu toàn mạng cho Claude Code, có hai con đường, tùy theo nhu cầu mà lựa chọn.

Hạn chế của công cụ kết nối tích hợp trong Claude Code

Claude Code tích hợp hai công cụ kết nối: WebSearch chịu trách nhiệm tìm kiếm, WebFetch chịu trách nhiệm thu thập nội dung trang.

WebSearch khá đơn giản, bạn đưa cho nó một từ khóa tìm kiếm, nó sẽ trả về các liên kết và tiêu đề liên quan. WebFetch phức tạp hơn một chút, bạn đưa cho nó một URL và một câu hỏi, nó sẽ thu thập nội dung trang, sử dụng thư viện Turndown để chuyển HTML thành Markdown, cắt ngắn xuống dưới 100KB, sau đó dùng một mô hình nhẹ (Haiku) để giúp bạn tóm tắt.

Nói một cách đơn giản, hai công cụ này giống như một trình duyệt phiên bản đơn giản. Có thể sử dụng, nhưng có một số điểm yếu.

Vấn đề lớn nhất là không thể render JS. Hiện nay, nhiều trang web là SPA (ứng dụng một trang), nội dung được tải động bằng JS. X/Twitter, nhiều nền tảng thương mại điện tử, các nền tảng SaaS khác nhau, WebFetch không thể thu thập nội dung thực tế, chỉ có thể lấy được một vỏ rỗng.

Khả năng chống thu thập cũng gần như bằng không. Không hỗ trợ quay vòng proxy, không thể xử lý CAPTCHA, khi gặp phải các trang web có cơ chế chống thu thập, chỉ có thể bỏ cuộc.

Một điểm đau khác là chỉ trả về tóm tắt văn bản. Nếu bạn muốn lấy dữ liệu có cấu trúc (chẳng hạn như bảng giá sản phẩm, danh sách đánh giá của người dùng, so sánh chức năng sản phẩm cạnh tranh), WebFetch không thể làm được, nó luôn trả cho bạn một đoạn văn bản đã được nén.

Ba điểm yếu này cộng lại khiến Claude Code luôn thiếu tính dễ sử dụng trong việc thu thập dữ liệu. Nhưng bây giờ đã có giải pháp.

Phương pháp 1: Kỹ năng Apify Agent

Apify là một nền tảng thu thập dữ liệu đám mây lâu đời, đã làm việc trong lĩnh vực thu thập dữ liệu và tự động hóa nhiều năm. Gần đây họ đã phát hành một bộ Kỹ năng Agent, đơn giản mà nói là một bộ kỹ năng được chế tạo sẵn, chuyên dạy AI Coding Agent cách thu thập dữ liệu.

Địa chỉ kho GitHub: https://github.com/apify/agent-skills

Bộ Kỹ năng này hỗ trợ Claude Code, Cursor, Codex, Gemini CLI và các công cụ lập trình AI phổ biến khác. Hiện tại có tổng cộng 12 kỹ năng, phạm vi rất rộng.

Kỹ năng apify-ultimate-scraper là một kỹ năng thu thập dữ liệu đa năng, có thể thu thập dữ liệu từ các nền tảng như Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search. Điều quan trọng là nó trả về dữ liệu có cấu trúc, có thể xuất trực tiếp ra CSV hoặc JSON, có thể sử dụng ngay.

Các kỹ năng khác bao gồm phân tích đối thủ, theo dõi danh tiếng thương hiệu, thu thập dữ liệu thương mại điện tử, phát hiện KOL, thu hút khách hàng tiềm năng, phân tích xu hướng và nhiều tình huống khác. Nếu bạn làm nghiên cứu thị trường hoặc phân tích dữ liệu kinh doanh, bộ này thực sự rất kỳ diệu.

Việc cài đặt bộ Kỹ năng này trong Claude Code cũng rất thuận tiện. Điều kiện tiên quyết là cần có một tài khoản Apify (đăng ký tại apify.com, có hạn mức miễn phí), sau khi có API Token thì có thể bắt đầu cấu hình.

Cài đặt chia thành hai bước. Đầu tiên thêm nguồn thị trường:/plugin marketplace add https://github.com/apify/agent-skills Cài đặt các kỹ năng bạn cần, chẳng hạn như trình thu thập dữ liệu đa năng:

/plugin install apify-ultimate-scraper@apify-agent-skills Bạn cũng có thể sử dụng cách npx chung để cài đặt tất cả các kỹ năng một lần:

npx skills add apify/agent-skills Sau khi cài đặt, đừng quên cấu hình mã thông báo API của bạn trong tệp .env ở thư mục gốc của dự án:

APIFYTOKEN=token của bạn

Ví dụ thu thập dữ liệu video từ Youtube

Ở đây có một điểm quan trọng. Santiago đã nhấn mạnh nhiều lần trong tweet rằng lợi thế cốt lõi của giải pháp này là trả về dữ liệu có cấu trúc. Ví dụ, bạn yêu cầu Claude Code giúp bạn thu thập danh sách sản phẩm từ một nền tảng thương mại điện tử, bạn sẽ nhận được bảng đã được sắp xếp (tên sản phẩm, giá cả, đánh giá, liên kết), có thể sử dụng trực tiếp để phân tích, hữu ích hơn nhiều so với tóm tắt văn bản mà WebFetch trả về.

Mô hình thanh toán của Apify là trả tiền theo kết quả, có nghĩa là chỉ tính phí khi bạn thu thập dữ liệu thành công. Tuy nhiên, đối với người dùng cá nhân, hạn mức miễn phí đủ để thực hiện nhiều việc.

Phương pháp 2: Máy chủ Apify MCP

Nếu bạn muốn kiểm soát linh hoạt hơn, hoặc nếu các Kỹ năng không bao phủ được tình huống của bạn, có một con đường thứ hai: kết nối trực tiếp với nền tảng Apify thông qua MCP (Model Context Protocol).

Thông qua Máy chủ Apify MCP, Claude Code có thể gọi trực tiếp hàng ngàn trình thu thập dữ liệu và công cụ tự động hóa có sẵn trong Apify Store.

Địa chỉ kho GitHub: https://github.com/apify/apify-mcp-server

Cấu hình giải pháp MCP cũng không phức tạp. Khuyến nghị sử dụng cách máy chủ từ xa được quản lý, cấu hình sẽ dễ dàng hơn. Thêm vào tệp cấu hình MCP của bạn:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer mã thông báo APIFY của bạn" } } } } Nếu bạn thích chạy cục bộ hơn, bạn có thể sử dụng cách Stdio:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "mã thông báo APIFY của bạn" } } } } Sau khi cấu hình xong, Claude Code có thể gọi các công cụ như search-actors (tìm kiếm trình thu thập dữ liệu có sẵn), call-actor (thực hiện nhiệm vụ thu thập dữ liệu), get-dataset-items (lấy kết quả thu thập) và nhiều công cụ khác.

Cả Kỹ năng và phương pháp MCP đều có thể được cài đặt, hai phương pháp này có thể bổ sung cho nhau.

Nếu nhu cầu của bạn là thường xuyên, tình huống cố định (chẳng hạn như thu thập giá sản phẩm cạnh tranh mỗi ngày), sử dụng Kỹ năng sẽ dễ dàng hơn, quy trình làm việc đã được chuẩn bị sẵn sàng để sử dụng ngay.

Nếu nhu cầu của bạn là tạm thời, tình huống thay đổi (hôm nay thu thập dữ liệu từ mạng xã hội, ngày mai thu thập dữ liệu công khai của chính phủ), sử dụng MCP sẽ linh hoạt hơn, Apify Store có hơn 15000 Actor có thể gọi bất cứ lúc nào.

Cả hai phương pháp đều có điều kiện giống nhau: cần có tài khoản Apify và mã thông báo API, cần môi trường Node.js 20.6+.

Cần lưu ý một thời điểm quan trọng: Phương thức truyền tải SSE của Máy chủ Apify MCP sẽ bị ngừng vào ngày 1 tháng 4 năm 2026, lúc đó cần cập nhật sang phương thức HTTP có thể phát trực tuyến. Nếu bạn bắt đầu cấu hình ngay bây giờ, chỉ cần sử dụng cấu hình được khuyến nghị ở trên là đủ, đó đã là phương thức mới.

Các giải pháp khác đáng chú ýBrave Search MCP là giải pháp tìm kiếm được Anthropic chính thức khuyến nghị, cho phép 2000 truy vấn miễn phí mỗi tháng, phù hợp cho việc tìm kiếm hàng ngày, nhưng nó chỉ là một công cụ tìm kiếm, không thể thu thập dữ liệu có cấu trúc.

Playwright MCP có thể thực hiện việc kết xuất trình duyệt thực sự, có thể xử lý các trang động JavaScript, phù hợp cho những trang web nặng về JS mà WebFetch không thể xử lý. Nhưng nó thiên về tự động hóa, không tiện lợi cho việc thu thập dữ liệu quy mô lớn như Apify.

Bright Data MCP đi theo hướng doanh nghiệp, hỗ trợ xoay vòng proxy và xử lý CAPTCHA, vào năm 2026 đã ra mắt một gói miễn phí mới (5000 yêu cầu MCP mỗi tháng), phù hợp cho những tình huống cần vượt qua cơ chế chống thu thập dữ liệu.

Những giải pháp này có những điểm mạnh riêng, có thể kết hợp theo nhu cầu. Hiện tại, tôi đang kết hợp WebFetch/WebSearch tích hợp để xử lý nhu cầu tìm kiếm thông tin hàng ngày, và Apify Skills để thu thập dữ liệu có cấu trúc.

Khả năng kết nối của Claude Code, với các công cụ tích hợp có thể bao phủ 80% các tình huống hàng ngày, nhưng 20% còn lại (kết xuất JS, chống thu thập dữ liệu, dữ liệu có cấu trúc) lại chính là những vấn đề không thể tránh khỏi trong nhiều công việc thực tế. Kỹ năng Agent của Apify và Máy chủ MCP đã lấp đầy khoảng trống này, quá trình cấu hình cũng không phức tạp, rất khuyến khích các bạn có nhu cầu thu thập dữ liệu thử nghiệm.

Published in Technology

You Might Also Like

📝
Technology

Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng

Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng Ngày 1 tháng 4 năm 2026, Anthropic đã âm...

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mớiTechnology

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới Tôi luôn rất thích triết lý cốt lõi của Obsid...

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm quaTechnology

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm qua

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường tro...

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đếnHealth

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến Năm mới bắt đầu, năm ngoái bạn đã ...

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều nàyHealth

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này Tháng Ba đã qua nửa, kế hoạch giảm...

📝
Technology

Hướng dẫn vận hành ổn định AI Browser 24 giờ

Hướng dẫn vận hành ổn định AI Browser 24 giờ Bài hướng dẫn này giới thiệu cách thiết lập một môi trường AI Browser ổn đị...