Claude Code + Apify, brez ovire za zajem podatkov iz celotnega spleta
Claude Code + Apify, brez ovire za zajem podatkov iz celotnega spleta
Pozdravljeni, jaz sem Lu Gong.
Ko uporabljate Claude Code, še posebej v načinu Plan, pogosto potrebujete orodje WebSearch za zajem podatkov s spletnih strani. Vendar se pogosto srečujete s težavami pri Fetch error.
To je pravzaprav stara težava. Orodja WebFetch in WebSearch, ki jih prinaša Claude Code, so dovolj za iskanje informacij in raziskovanje v 80% primerov, vendar ko naletite na strani, ki jih poganja JS, na spletna mesta, ki zahtevajo prijavo, ali na potrebe po obsežnem zbiranju podatkov, vgrajena orodja ne zmorejo.
Pred nekaj dnevi sem videl, da je Santiago (@svpino, znan bloger na področju AI/ML) delil rešitev, ki pravi, da lahko s Claude Code pridobite realne strukturirane podatke s katerekoli spletne strani, vrne pa jih v obliki tabel, ne pa kot dolg povzetek besedila. Preizkusil sem to in res deluje zelo dobro.
Danes bomo govorili o tem, kako Claude Code opremiti z zmogljivostjo za zajem podatkov iz celotnega spleta, z dvema možnostma, ki jih lahko izberete po potrebi.
Slabosti vgrajenih orodij za povezovanje v Claude Code
Claude Code ima dva vgrajena orodja za povezovanje: WebSearch, ki je odgovoren za iskanje, in WebFetch, ki zajema vsebino strani.
WebSearch je precej preprost, dajete mu iskalno besedo in vrne povezave in naslove. WebFetch je nekoliko bolj zapleten, dajete mu URL in vprašanje, zajame vsebino strani, s pomočjo knjižnice Turndown pretvori HTML v Markdown, skrajša na 100KB in nato z lahkim modelom (Haiku) povzame.
Povedano preprosto, ti dve orodji sta enostavna različica brskalnika. Uporabna sta, vendar imata nekaj resnih pomanjkljivosti.
Največja težava je, da ne moreta upodabljati JS. Zdaj veliko spletnih mest deluje kot SPA (enostranske aplikacije), vsebina se dinamično nalaga s pomočjo JS. X/Twitter, številne platforme za e-trgovino, različni SaaS sistemi, WebFetch ne more zajeti dejanske vsebine, temveč le prazno lupino.
Zmožnost preprečevanja zajemanja podatkov je prav tako skoraj nič. Ne podpira rotacije proxy-jev, ne more obdelovati CAPTCHA kod, ko naletite na spletna mesta z mehanizmi za preprečevanje zajemanja, se lahko le predate.
Še ena težava je, da vrne le povzetke besedila. Če želite pridobiti strukturirane podatke (na primer seznam cen izdelkov, seznam uporabniških mnenj, primerjavo funkcij konkurentov), WebFetch tega ne more, vedno vam vrne le stisnjen del besedila.
Te tri pomanjkljivosti skupaj povzročajo, da Claude Code vedno primanjkuje uporabnosti pri zbiranju podatkov. Toda zdaj imamo rešitev.
Metoda 1: Apify Agent Skills
Apify je dobro znana platforma za zajemanje podatkov v oblaku, ki se ukvarja z zajemanjem spletnih strani in avtomatizacijo že vrsto let. Nedavno so predstavili niz Agent Skills, preprosto povedano, gre za niz predpripravljenih veščin, ki učijo AI Coding Agent, kako izvajati zajem podatkov.
GitHub repozitorij: https://github.com/apify/agent-skills
Ta niz veščin podpira Claude Code, Cursor, Codex, Gemini CLI in druge priljubljene AI programske pripomočke. Trenutno je na voljo 12 veščin, ki pokrivajo širok spekter.
Osrednja apify-ultimate-scraper je univerzalna veščina za zajemanje podatkov, ki lahko zajame podatke z platform, kot so Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search itd. Ključna prednost je, da vrne strukturirane podatke, ki jih lahko neposredno izvozite v CSV ali JSON, kar lahko takoj uporabite.
Druge veščine pokrivajo analizo konkurence, spremljanje blagovnih znamk, zbiranje podatkov o e-trgovini, odkrivanje KOL, pridobivanje potencialnih strank, analizo trendov in druge scenarije. Če se ukvarjate z raziskovanjem trga ali analizo poslovnih podatkov, je ta niz preprosto čaroben.
Namestitev tega niza veščin v Claude Code je prav tako enostavna. Predpogoj je, da imate račun Apify (registrirajte se na apify.com, na voljo je brezplačna kvota), po pridobitvi API žetona lahko začnete s konfiguracijo.
Namestitev poteka v dveh korakih. Najprej dodajte tržne vire:/plugin marketplace add https://github.com/apify/agent-skills nato namestite veščine, ki jih potrebujete, na primer univerzalni pajek:
/plugin install apify-ultimate-scraper@apify-agent-skills lahko uporabite tudi splošni način npx, da enkrat namestite vse veščine:
npx skills add apify/agent-skills Po namestitvi ne pozabite v .env datoteki v korenskem imeniku projekta nastaviti svoj API Token:
APIFYTOKEN=vaš token
Na primer, zajem podatkov o videih na Youtube
Tu je ključna točka. Santiago v tvitih nenehno poudarja, da je glavna prednost tega načrta vračanje strukturiranih podatkov. Na primer, če prosite Claude Code, da zajame seznam izdelkov iz določene e-trgovine, dobite urejeno tabelo (ime izdelka, cena, ocena, povezava), ki jo lahko neposredno uporabite za analizo, kar je veliko bolj uporabno kot besedilni povzetek, ki ga vrne WebFetch.
Apifyjev model obračunavanja je plačilo na podlagi rezultatov, kar pomeni, da se zaračuna le, če so podatki uspešno zajeti. Vendar pa je za osebne uporabnike brezplačna kvota dovolj za marsikaj.
Metoda 2: Apify MCP strežnik
Če želite bolj fleksibilno kontrolo ali če veščine ne pokrivajo vašega scenarija, obstaja še druga pot: neposredno povezovanje z Apify platformo preko MCP (Model Context Protocol).
S pomočjo Apify MCP strežnika lahko Claude Code neposredno pokliče tisoče že pripravljenih pajkov in avtomatizacijskih orodij iz Apify Store.
GitHub repozitorij: https://github.com/apify/apify-mcp-server
Konfiguracija MCP rešitve ni zapletena. Priporočamo uporabo gostovanega oddaljenega strežnika, kar je najlažje za konfiguracijo. V vašo MCP konfiguracijsko datoteko dodajte:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer vaš APIFYTOKEN" } } } } Če raje delate lokalno, lahko uporabite način Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "vaš APIFYTOKEN" } } } }` Ko je vse pravilno nastavljeno, lahko Claude Code pokliče orodja, kot so search-actors (iskanje razpoložljivih pajkov), call-actor (izvajanje naloge pajka), get-dataset-items (pridobitev rezultatov zajema) itd.
Veščine in metoda MCP se lahko namestita obe, saj se medsebojno dopolnjujeta.
Če so vaše potrebe visoke frekvence in fiksnega scenarija (na primer, da enkrat na dan zajamete cene konkurenčnih izdelkov), je uporaba veščin bolj brezskrbna, predpripravljeni delovni tokovi so pripravljeni za uporabo.
Če so vaše potrebe začasne in se scenarij pogosto spreminja (danes zajem socialnih medijev, jutri zajem javnih podatkov vlade), je MCP bolj fleksibilen, Apify Store pa ponuja več kot 15000 Actorjev, ki jih lahko pokličete kadarkoli.
Obe metodi imata enake predpogoje: potrebujete Apify račun in API Token ter okolje Node.js 20.6+.
Pomembno je opozoriti na časovno točko: način prenosa SSE za Apify MCP strežnik bo ukinjen 1. aprila 2026, takrat bo potrebno preiti na način Streamable HTTP. Če začnete s konfiguracijo zdaj, preprosto uporabite zgoraj priporočeno konfiguracijo, saj je že nova metoda.

