Claude Code + Apify, piekļuve datu vākšanai no visas interneta
Claude Code + Apify, piekļuve datu vākšanai no visas interneta
Sveiki visiem, esmu Lu Gong.
Kad jūs izmantojat Claude Code, īpaši Plānošanas režīmā, bieži ir nepieciešams izmantot WebSearch rīku, lai iegūtu tīmekļa datus. Bet bieži sastopama problēma ir Fetch error.
Tas patiesībā ir veca problēma. Izmantojot Claude Code iebūvētos WebFetch un WebSearch rīkus, lai meklētu informāciju un veiktu pētījumus, 80% gadījumu tas ir pietiekami, bet, kad sastopamies ar JS renderētiem lapām, vietnēm, kurām nepieciešama pieteikšanās, vai lielapjoma datu vākšanas prasībām, iebūvētie rīki nespēj tikt galā.
Pirms dažām dienām es redzēju, ka Santiago (@svpino, pazīstams emuāru autors AI/ML jomā) dalījās ar risinājumu, viņš teica, ka var izmantot Claude Code, lai iegūtu reāllaika strukturētus datus no jebkuras vietnes, atgriežot tos tabulas formātā, nevis kā garu teksta kopsavilkumu. Es to izmēģināju, un tas patiešām ir ļoti noderīgi.
Šodien runāsim par to, kā pievienot Claude Code datu vākšanas spējas no visas interneta, divi ceļi, izvēlieties pēc vajadzības.
Claude Code iebūvēto tīkla rīku trūkumi
Claude Code nāk ar diviem tīkla rīkiem: WebSearch, kas atbild par meklēšanu, un WebFetch, kas atbild par lapu satura iegūšanu.
WebSearch ir salīdzinoši vienkāršs, jūs tam sniedzat meklēšanas vārdu, un tas atgriež saistītās saites un virsrakstus. WebFetch ir nedaudz sarežģītāks, jūs tam sniedzat URL un jautājumu, un tas iegūst lapas saturu, izmantojot Turndown bibliotēku, lai pārvērstu HTML par Markdown, apgriežot to līdz 100KB, un pēc tam izmanto vieglu modeli (Haiku), lai palīdzētu jums to kopsavilkt.
Vienkārši sakot, šie divi rīki ir vienkāršota pārlūkprogrammas versija. Tie ir lietojami, bet ir daži nopietni trūkumi.
Lielākā problēma ir tā, ka tie nevar renderēt JS. Tagad daudzas vietnes ir SPA (vienas lapas lietojumprogrammas), un saturs tiek dinamiski ielādēts ar JS. X/Twitter, daudzas e-komercijas platformas, dažādi SaaS aizmugures, WebFetch nevar iegūt faktisko saturu, var tikai iegūt tukšu apvalku.
Pretpārkāpšanas spēja ir praktiski nulle. Tas neatbalsta aģentu rotāciju, nevar apstrādāt CAPTCHA verifikācijas kodus, un, sastopoties ar vietnēm, kurām ir pretpārkāpšanas mehānisms, var tikai atteikties.
Vēl viens sāpīgs punkts ir tas, ka tas atgriež tikai teksta kopsavilkumus. Ja vēlaties iegūt strukturētus datus (piemēram, preču cenu sarakstu, lietotāju atsauksmju sarakstu, konkurentu funkciju salīdzinājumu), WebFetch to nevar izdarīt, tas jums vienmēr sniegs saspiestu tekstu.
Šie trīs trūkumi kopā padara Claude Code par grūti lietojamu datu vākšanā. Bet tagad ir risinājums.
Metode 1: Apify aģenta prasmes
Apify ir vecs mākoņu tīmekļa skrāpēšanas platforma, kas daudzus gadus nodarbojas ar tīmekļa datu vākšanu un automatizāciju. Nesen viņi izlaida aģenta prasmes, vienkārši sakot, tas ir priekšizstrādātu prasmju komplekts, kas speciāli mācīs AI kodēšanas aģentam, kā veikt datu vākšanu.
GitHub krātuves adrese: https://github.com/apify/agent-skills
Šis prasmes komplekts atbalsta Claude Code, Cursor, Codex, Gemini CLI un citus populārus AI programmēšanas rīkus. Pašlaik ir kopumā 12 prasmes, kas aptver plašu jomu.
Galvenā apify-ultimate-scraper ir universāla skrāpēšanas prasme, kas var iegūt datus no Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search un citiem platformām. Svarīgi, ka tā atgriež strukturētus datus, kurus var tieši eksportēt CSV vai JSON formātā, un tos var izmantot uzreiz.
Citas prasmes aptver konkurentu analīzi, zīmola reputācijas uzraudzību, e-komercijas datu vākšanu, KOL atklāšanu, potenciālo klientu iegūšanu, tendences analīzi un citus scenārijus. Ja jūs veicat tirgus pētījumus vai komerciālo datu analīzi, šis komplekts ir patiešām brīnumains.
Instalēt šo prasmes komplektu Claude Code ir arī ļoti ērti. Priekšnoteikums ir Apify konts (reģistrējieties apify.com, ir pieejams bezmaksas limits), pēc API tokena saņemšanas varat sākt konfigurāciju.
Instalācija sastāv no diviem soļiem. Vispirms pievienojiet tirgus avotu:/plugin marketplace add https://github.com/apify/agent-skills vēlreiz instalējiet nepieciešamās prasmes, piemēram, universālo tīmekļa skrāpi:
/plugin install apify-ultimate-scraper@apify-agent-skills varat arī izmantot universālo npx veidu, lai vienlaikus instalētu visas prasmes:
npx skills add apify/agent-skills pēc instalēšanas neaizmirstiet savā projekta saknes direktorijā .env failā norādīt savu API token:
APIFYTOKEN=yourtoken
Piemēram, lai iegūtu Youtube video datus
Šeit ir viens svarīgs punkts. Santiago savās tvītos atkārtoti uzsver, ka šī risinājuma galvenā priekšrocība ir strukturētu datu atgriešana. Piemēram, ja jūs lūdzat Claude Code palīdzēt iegūt kāda e-komercijas platformas produktu sarakstu, jūs saņemat sakārtotu tabulu (nosaukums, cena, vērtējums, saite), ko var tieši izmantot analīzei, tas ir daudz noderīgāk nekā WebFetch atgrieztā teksta kopsavilkums.
Apify maksāšanas modelis ir balstīts uz rezultātiem, tas nozīmē, ka nauda tiek atskaitīta tikai tad, ja dati ir veiksmīgi iegūti. Tomēr individuālajiem lietotājiem bezmaksas limits ir pietiekams, lai paveiktu daudz.
Otrs veids: Apify MCP Server
Ja vēlaties elastīgāku kontroli vai ja Prasmes nesedz jūsu scenāriju, ir otra iespēja: tieši pieslēgties Apify platformai, izmantojot MCP (Model Context Protocol).
Izmantojot Apify MCP Server, Claude Code var tieši izsaukt tūkstošiem gatavu tīmekļa skrāpu un automatizācijas rīku no Apify veikala.
GitHub repozitorija adrese: https://github.com/apify/apify-mcp-server
MCP risinājuma konfigurācija nav sarežģīta. Ieteicams izmantot pārvaldītu attālināto serveri, konfigurācija ir visvieglākā. Jūsu MCP konfigurācijas failā pievienojiet:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer yourAPIFYTOKEN" } } } } ja dodat priekšroku lokālai palaišanai, varat izmantot Stdio veidu:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "yourAPIFY_TOKEN" } } } } Kad viss ir konfigurēts, Claude Code varēs izsaukt search-actors (meklēt pieejamos tīmekļa skrāpjus), call-actor (izpildīt skrāpšanas uzdevumus), get-dataset-items (iegūt skrāpšanas rezultātus) un citus rīkus.
Prasmes un MCP metodes var instalēt abas, tās var papildināt viena otru.
Ja jūsu prasības ir biežas un scenārijs ir fiksēts (piemēram, katru dienu iegūt konkurentu cenas), izmantojiet Prasmes, tas ir vieglāk, iepriekš sagatavotie darba plūsmas ir gatavas lietošanai.
Ja jūsu prasības ir pagaidu un scenārijs mainās (šodien iegūt sociālos medijus, rīt iegūt valdības publiskos datus), izmantojiet MCP, tas ir elastīgāks, Apify veikalā ir vairāk nekā 15000 Aktoru, kurus var izsaukt jebkurā laikā.
Abām metodēm ir vienādi nosacījumi: nepieciešams Apify konts un API token, nepieciešama Node.js 20.6+ vide.
Noteikti pievērsiet uzmanību vienam laika punktam: Apify MCP Server SSE pārsūtīšanas metode tiks atcelta 2026. gada 1. aprīlī, un tajā laikā būs jāatjaunina uz Streamable HTTP metodi. Ja jūs tagad sākat konfigurēt, vienkārši izmantojiet iepriekš ieteikto konfigurāciju, tā jau ir jaunā metode.
Citi risinājumi, kas ir vērti uzmanībasBrave Search MCP ir Anthropic oficiāli ieteikts meklēšanas risinājums, kas piedāvā 2000 bezmaksas pieprasījumus mēnesī, piemērots ikdienas meklēšanai, taču tas ir tikai meklētājs un nevar veikt strukturētu datu vākšanu.
Playwright MCP var veikt patiesu pārlūkprogrammas renderēšanu un spēj apstrādāt JavaScript dinamiskās lapas, piemērots tiem, kuriem WebFetch nesanāk tikt galā ar JS smagajām vietnēm. Taču tas vairāk ir vērsts uz automatizētām darbībām, un nav tik ērti veikt liela apjoma datu vākšanu kā Apify.
Bright Data MCP seko uzņēmuma līmeņa pieejai, atbalsta starpniekserveru rotāciju un CAPTCHA apstrādi, 2026. gadā tika ieviests jauns bezmaksas plāns (5000 MCP pieprasījumi mēnesī), piemērots scenārijiem, kuros nepieciešams pārvarēt pretpārmeklēšanas mehānismus.
Šie risinājumi katrs ir vērsti uz atšķirīgām jomām un var tikt kombinēti pēc vajadzības. Mans pašreizējais kombinējums ir iebūvētais WebFetch/WebSearch, lai apmierinātu ikdienas informācijas meklēšanas vajadzības, un Apify Skills, lai veiktu strukturētu datu vākšanu.
Claude Code tīkla iespējas, iebūvētie rīki spēj segt 80% ikdienas scenāriju, taču tie atlikušās 20% (JS renderēšana, pretpārmeklēšana, strukturētie dati) ir tieši tās, kuras daudzos praktiskos darbos nevar apiet. Apify aģenta prasmes un MCP serveris aizpilda šo trūkumu, un konfigurācijas process nav sarežģīts, ļoti ieteicams studentiem ar datu vākšanas vajadzībām izmēģināt.

