Claude Code + Apify, Walang Hadlang na Pagkuha ng Data mula sa Buong Internet

3/3/2026
8 min read

Claude Code + Apify, Walang Hadlang na Pagkuha ng Data mula sa Buong Internet

Claude Code + ApifyKumusta kayong lahat, ako si Lu Gong.

Kapag gumagamit kayo ng Claude Code, lalo na sa Plan mode, madalas kayong may pangangailangan na gumamit ng WebSearch tool para makuha ang data mula sa mga webpage. Ngunit madalas kayong nakakaranas ng Fetch error.

Ito ay talagang isang lumang problema. Sa paggamit ng WebFetch at WebSearch tools na kasama sa Claude Code, sapat na ito para sa 80% ng mga sitwasyon sa paghahanap ng impormasyon at paggawa ng pananaliksik, ngunit kapag nakatagpo ng mga pahina na may JS rendering, mga site na nangangailangan ng pag-login, o mga pangangailangan para sa malakihang pagkuha ng data, hindi na kayang hawakan ng mga nakabuilt-in na tool.

Kamakailan, nakita ko si Santiago (@svpino, isang kilalang blogger sa larangan ng AI/ML) na nagbahagi ng isang solusyon. Sabi niya, maaari mong gamitin ang Claude Code para kumuha ng real-time na structured data mula sa anumang website, at ang ibinabalik ay isang table na maaaring gamitin agad, hindi yung isang mahabang buod ng teksto. Sinubukan ko ito at talagang mahusay.

Ngayon, pag-uusapan natin kung paano bigyan ang Claude Code ng kakayahan sa pagkuha ng data mula sa buong internet, may dalawang landas, piliin ayon sa pangangailangan.

Mga Kahinaan ng Built-in Networking Tools ng Claude Code

May dalawang built-in na networking tools ang Claude Code: ang WebSearch na responsable sa paghahanap, at ang WebFetch na responsable sa pagkuha ng nilalaman ng pahina.

Medyo simple ang WebSearch, bibigyan mo ito ng isang search term, ibabalik nito ang mga kaugnay na link at pamagat. Medyo mas kumplikado ang WebFetch, bibigyan mo ito ng isang URL at isang tanong, kukunin nito ang nilalaman ng pahina, gamit ang Turndown library para i-convert ang HTML sa Markdown, at puputulin ito sa loob ng 100KB, pagkatapos ay gagamit ng isang magaan na modelo (Haiku) para tulungan kang buod.

Sa madaling salita, ang dalawang tool na ito ay parang isang simpleng bersyon ng browser. Magagamit, ngunit may ilang malubhang depekto.

Ang pinakamalaking problema ay hindi nito kayang i-render ang JS. Ngayon, maraming website ang SPA (Single Page Application), ang nilalaman ay dinadagdag ng JS nang dinamiko. Sa X/Twitter, maraming e-commerce platform, at iba't ibang SaaS backend, hindi makuha ng WebFetch ang aktwal na nilalaman, kundi isang walang laman na shell lamang.

Ang kakayahan nitong labanan ang web scraping ay halos zero. Hindi ito sumusuporta sa proxy rotation, hindi nito kayang hawakan ang CAPTCHA verification, kaya kapag nakatagpo ng website na may anti-scraping mechanism, wala na tayong magagawa.

Isa pang sakit ng ulo ay ang pagbabalik lamang ng text summary. Kung gusto mong makuha ang structured data (tulad ng price list ng produkto, listahan ng mga review ng user, o paghahambing ng mga tampok ng mga kakumpitensya), hindi ito magagawa ng WebFetch, palaging isang pinagsama-samang teksto ang ibinabalik nito.

Ang tatlong kahinaang ito ay nagiging dahilan kung bakit palaging kulang ang Claude Code sa usability sa pagkuha ng data. Ngunit ngayon, may solusyon na.

Paraan 1: Apify Agent Skills

Ang Apify ay isang matagal nang cloud-based na web scraping platform, na gumagawa ng web scraping at automation sa loob ng maraming taon. Kamakailan, naglunsad sila ng isang set ng Agent Skills, sa madaling salita, ito ay isang grupo ng mga pre-made skill packages na nagtuturo sa AI Coding Agent kung paano gumawa ng data collection.

GitHub repository address: https://github.com/apify/agent-skills

Sinusuportahan ng set na ito ng Skills ang Claude Code, Cursor, Codex, Gemini CLI at iba pang mga pangunahing AI programming tools. Sa kasalukuyan, mayroon itong 12 skills na sumasaklaw sa isang malawak na saklaw.

Ang pangunahing apify-ultimate-scraper ay isang all-purpose scraping skill na kayang kumuha ng data mula sa Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search at iba pang platform. Ang mahalaga ay ang ibinabalik nito ay structured data, na maaaring i-export agad sa CSV o JSON, at magagamit na.

Ang iba pang skills ay sumasaklaw sa competitive analysis, brand reputation monitoring, e-commerce data collection, KOL discovery, lead generation, trend analysis at iba pang mga sitwasyon. Kung ikaw ay gumagawa ng market research o business data analysis, ang set na ito ay talagang kahanga-hanga.

Madali ring i-install ang set na ito ng Skills sa Claude Code. Ang kinakailangan ay isang Apify account (mag-register sa apify.com, may libreng quota), at pagkatapos makuha ang API Token, maaari nang simulan ang configuration.

Ang pag-install ay nahahati sa dalawang hakbang. Una, idagdag ang market source:/plugin marketplace add https://github.com/apify/agent-skills pagkatapos ay i-install ang mga kinakailangang kasanayan, tulad ng universal scraper:

/plugin install apify-ultimate-scraper@apify-agent-skills maaari ring gamitin ang pangkalahatang npx na paraan upang i-install ang lahat ng kasanayan nang sabay:

npx skills add apify/agent-skills pagkatapos ng pag-install, huwag kalimutang i-configure ang iyong API Token sa .env file sa root directory ng proyekto:

APIFYTOKEN=iyong token

Halimbawa ng pagkuha ng data mula sa Youtube videos

Narito ang isang mahalagang punto. Paulit-ulit na binigyang-diin ni Santiago sa kanyang tweet na ang pangunahing bentahe ng solusyong ito ay ang pagbabalik ng nakabalangkas na data. Halimbawa, kung hihilingin mo kay Claude Code na kunin ang listahan ng mga produkto mula sa isang e-commerce platform, makakakuha ka ng maayos na talahanayan (pangalan ng produkto, presyo, rating, link), na maaari mong direktang gamitin para sa pagsusuri, mas kapaki-pakinabang kumpara sa text summary na ibinabalik ng WebFetch.

Ang modelo ng pagsingil ng Apify ay batay sa resulta, ibig sabihin, sisingilin ka lamang kapag matagumpay na nakuha ang data. Gayunpaman, para sa mga indibidwal na gumagamit, sapat na ang libreng quota para sa maraming bagay.

Paraan Dalawa: Apify MCP Server

Kung nais mo ng mas nababaluktot na kontrol, o kung walang nasasakupan ang Skills para sa iyong senaryo, may isa pang paraan: direktang kumonekta sa Apify platform sa pamamagitan ng MCP (Model Context Protocol).

Sa pamamagitan ng Apify MCP Server, maaaring direktang tawagan ni Claude Code ang libu-libong handang scraper at automation tools sa Apify Store.

GitHub repository address: https://github.com/apify/apify-mcp-server

Ang MCP configuration ay hindi rin kumplikado. Inirerekomenda ang paggamit ng hosted remote server method, ang pinaka-maginhawa sa configuration. Idagdag sa iyong MCP configuration file:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer iyong APIFYTOKEN" } } } } kung mas gusto mong patakbuhin ito nang lokal, maaari mong gamitin ang Stdio method:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "iyong APIFYTOKEN" } } } }` Kapag na-configure na, makakagamit na si Claude Code ng mga tool tulad ng search-actors (maghanap ng mga available na scraper), call-actor (isagawa ang scraper task), get-dataset-items (kunin ang mga resulta ng pagkuha) at iba pa.

Maaaring i-install ang parehong Skills at MCP method, ang dalawa ay maaaring magkomplemento sa isa't isa.

Kung ang iyong pangangailangan ay mataas ang dalas at may tiyak na senaryo (halimbawa, araw-araw na pagkuha ng presyo ng kakumpitensya), mas madaling gamitin ang Skills, ang pre-made workflow ay handa nang gamitin.

Kung ang iyong pangangailangan ay pansamantala at nagbabago-bago ang senaryo (ngayon ay kumukuha mula sa social media, bukas ay kumukuha ng pampublikong data mula sa gobyerno), mas nababaluktot ang MCP, mayroong higit sa 15000 na Actor sa Apify Store na maaari mong tawagan anumang oras.

Pareho ang mga kinakailangan para sa dalawang paraan: kailangan ng Apify account at API Token, kailangan ng Node.js 20.6+ environment.

Tiyaking bigyang-pansin ang isang oras na punto: ang SSE transmission method ng Apify MCP Server ay ititigil sa Abril 1, 2026, at kinakailangan itong i-update sa Streamable HTTP method. Kung nagsisimula ka na ngayong i-configure, direktang gamitin ang inirekomendang configuration sa itaas, ito na ang bagong paraan.

Ibang mga solusyon na dapat bigyang-pansinSa labas ng Apify, may ilang MCP search solutions na dapat malaman.

Ang Brave Search MCP ay opisyal na inirerekomenda ng Anthropic bilang search solution, na may 2000 libreng query bawat buwan, na angkop para sa pang-araw-araw na karagdagang paghahanap, ngunit ito ay isang search engine lamang at hindi makakagawa ng structured data collection.

Ang Playwright MCP ay kayang gumawa ng tunay na browser rendering, na kayang hawakan ang mga JavaScript dynamic na pahina, na angkop para sa mga JS-heavy site na hindi kayang ayusin ng WebFetch. Ngunit ito ay mas nakatuon sa automation, hindi kasing maginhawa ng Apify para sa malakihang data collection.

Ang Bright Data MCP ay sumusunod sa enterprise-level na ruta, sumusuporta sa proxy rotation at CAPTCHA handling, at naglunsad ng isang libreng tier noong 2026 (5000 MCP requests bawat buwan), na angkop para sa mga sitwasyon na nangangailangan ng pagtagumpay sa anti-scraping mechanisms.

Ang mga solusyong ito ay may kanya-kanyang pokus at maaaring ihalo ayon sa pangangailangan. Ang kasalukuyan kong kombinasyon ay ang built-in na WebFetch/WebSearch para sa pang-araw-araw na pangangailangan sa impormasyon, at ang Apify Skills para sa structured data collection.

Ang kakayahan ng Claude Code na kumonekta sa internet, ang built-in na mga tool ay kayang saklawin ang 80% ng mga pangkaraniwang sitwasyon, ngunit ang natitirang 20% (JS rendering, anti-scraping, structured data) ay talagang hindi maiiwasan sa maraming aktwal na trabaho. Ang Agent Skills at MCP Server ng Apify ay punan ang puwang na ito, at ang proseso ng pagsasaayos ay hindi kumplikado, lubos na inirerekomenda para sa mga estudyanteng may pangangailangan sa data collection na subukan ito.

Published in Technology

You Might Also Like