Claude Code + Apify, takistusteta andmete kogumine kogu veebist
Claude Code + Apify, takistusteta andmete kogumine kogu veebist
Tere kõigile, mina olen Lu Gong.
Kui kasutate Claude Code'i, eriti Planeerimise režiimis, on sageli vajadus kasutada WebSearch tööriista veebilehe andmete kogumiseks. Kuid tihti kohtate Fetch error'i olukordi.
See on tegelikult vana probleem. Claude Code'i sisseehitatud WebFetch ja WebSearch tööriistadega on andmete otsimine ja uurimine 80% juhtudest piisav, kuid kui tegemist on JS-renderdatud lehtede, sisselogimist vajavate saitidega või suurte andmekogumise vajadustega, siis sisseehitatud tööriistad ei suuda hakkama saada.
Mõni päev tagasi nägin, et Santiago (@svpino, tuntud blogija AI/ML valdkonnas) jagas lahendust, öeldes, et Claude Code'i abil saab igalt veebisaidilt reaalajas struktureeritud andmeid hankida, tagastades tabeli, mida saab otse kasutada, mitte lihtsalt pikka tekstilõiku. Proovisin seda ja see tõesti töötab hästi.
Täna räägime sellest, kuidas anda Claude Code'ile kogu veebist andmete kogumise võime, kaks teed, valige vastavalt vajadusele.
Claude Code'i sisseehitatud võrgutööriistade puudused
Claude Code'il on kaks sisseehitatud võrgutööriista: WebSearch vastutab otsimise eest, WebFetch vastutab lehe sisu kogumise eest.
WebSearch on üsna lihtne, annate sellele otsingusõna ja see tagastab seotud lingid ja pealkirjad. WebFetch on veidi keerulisem, annate sellele URL-i ja küsimuse, see kogub lehe sisu, muutes HTML-i Markdowniks Turndown teegi abil, kärpides selle 100KB piiresse ja kasutades kerget mudelit (Haiku) kokkuvõtte tegemiseks.
Ütlematagi selge, et need kaks tööriista on lihtsustatud brauseri versioon. Need on kasutatavad, kuid neil on mõned tõsised puudused.
Suurim probleem on see, et nad ei suuda JS-i renderdada. Praegu on suur hulk veebisaite SPA (ühe lehe rakendused), mille sisu laaditakse dünaamiliselt JS-i abil. X/Twitter, paljud e-kaubanduse platvormid, erinevad SaaS taustad, WebFetch ei suuda tegelikku sisu kätte saada, vaid saab ainult tühja kest.
Ka andmete kogumise kaitse on peaaegu null. Ei toeta proxy vahetust, ei suuda töödelda CAPTCHA koodide kontrollimist, kui satute veebisaitidele, kus on andmete kogumise kaitse, ei jää muud üle kui loobuda.
Veel üks probleem on see, et see tagastab ainult tekstilisi kokkuvõtteid. Kui soovite saada struktureeritud andmeid (näiteks toote hindade loetelu, kasutajate arvustuste loetelu, konkurentide funktsioonide võrdlus), siis WebFetch ei suuda seda teha, see annab teile alati kokkuvõtte, mis on kokku surutud tekst.
Need kolm puudust koos teevad Claude Code'i andmete kogumise osas pidevalt kasutusmugavuse puudujäägi. Kuid nüüd on olemas lahendus.
Meetod 1: Apify Agent Skills
Apify on vana pilvepõhine andmete kogumise platvorm, mis on veebilehtede kogumise ja automatiseerimisega tegelenud juba aastaid. Hiljuti tutvustasid nad Agent Skills'i, lihtsustatult öeldes on see komplekt eelnevalt valmistatud oskusi, mis õpetavad AI Coding Agent'ile, kuidas andmete kogumist teha.
GitHubi hoidla aadress: https://github.com/apify/agent-skills
See oskuste komplekt toetab Claude Code'i, Cursorit, Codexit, Gemini CLI-d ja teisi peamisi AI programmeerimistööriistu. Praegu on kokku 12 oskust, mis katab üsna laia valikut.
Keskne apify-ultimate-scraper on universaalne andmete kogumise oskus, mis suudab koguda andmeid Instagramist, Facebookist, TikTokist, YouTube'ist, Google Mapsist, Google Searchist jne. Oluline on see, et see tagastab struktureeritud andmeid, mida saab otse CSV või JSON formaadis eksportida, ja need on kohe kasutatavad.
Teised oskused katavad konkurentide analüüsi, brändi maine jälgimise, e-kaubanduse andmete kogumise, KOL-i avastamise, potentsiaalsete klientide hankimise, trendide analüüsi jne. Kui teete turu-uuringut või ärilisi andmeanalüüse, on see komplekt tõeliselt imeline.
Claude Code'i jaoks selle oskuste komplekti installimine on samuti väga mugav. Eeltingimus on Apify konto (registreeruge apify.com, tasuta limiidiga), pärast API Token'i saamist saate alustada seadistamist.
Installatsioon koosneb kahest etapist. Esiteks lisage turuallikas:/plugin marketplace add https://github.com/apify/agent-skills Seejärel installige vajalikud oskused, näiteks universaalne kraapija:
/plugin install apify-ultimate-scraper@apify-agent-skills Samuti saate kasutada universaalset npx meetodit, et kõik oskused korraga installida:
npx skills add apify/agent-skills Pärast installimist ärge unustage oma API Tokeni seadistamist projekti juurkaustas asuvas .env failis:
APIFYTOKEN=teietoken
Näiteks Youtube'i videote andmete kraapimine
Siin on üks oluline punkt. Santiago rõhutas oma postitustes korduvalt, et selle lahenduse peamine eelis on struktureeritud andmete tagastamine. Näiteks kui palute Claude Code'il kraapida mõne e-kaubanduse platvormi toote nimekirja, saate korraldatud tabeli (toote nimi, hind, hinnang, link), mida saab otse analüüsimiseks kasutada, mis on palju praktilisem kui WebFetch'i tagastatud tekstiline kokkuvõte.
Apify tasustamismudel põhineb tulemustel, see tähendab, et raha arvestatakse ainult siis, kui andmed on edukalt kraabitud. Kuid isiklike kasutajate jaoks on tasuta limiit piisav paljude asjade tegemiseks.
Meetod kaks: Apify MCP Server
Kui soovite paindlikumat kontrolli või kui oskustes ei ole teie stsenaariumi katmiseks piisavalt, on veel teine tee: otse Apify platvormile ühendamine MCP (Model Context Protocol) kaudu.
Apify MCP Serveri kaudu saab Claude Code otse kutsuda Apify Store'is olevaid tuhandeid valmis kraapijaid ja automatiseerimise tööriistu.
GitHubi hoidla aadress: https://github.com/apify/apify-mcp-server
MCP lahenduse seadistamine ei ole keeruline. Soovitame kasutada hallatud kaugserveri meetodit, mis on kõige lihtsam. Lisage oma MCP seadistusfaili:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer teieAPIFYTOKEN" } } } } Kui eelistate kohalikku käitamist, saate kasutada Stdio meetodit:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "teieAPIFYTOKEN" } } } }` Kui kõik on seadistatud, saab Claude Code kasutada tööriistu nagu search-actors (otsige saadaval olevaid kraapijaid), call-actor (täitke kraapimise ülesanne), get-dataset-items (saage kraapimise tulemused) jne.
Oskusi ja MCP meetodit saab mõlemat installida, need võivad üksteist täiendada.
Kui teie vajadus on sagedane ja stsenaarium fikseeritud (näiteks iga päev konkurentide hindade kraapimine), on oskuste kasutamine muretu, eelnevalt valmistatud töövood on kohe kasutamiseks valmis.
Kui teie vajadus on ajutine ja stsenaarium muutuv (täna kraapige sotsiaalmeediat, homme kraapige valitsuse avalikke andmeid), on MCP paindlikum, Apify Store'is on üle 15000 näitleja, keda saab igal ajal kutsuda.
Mõlema meetodi eeltingimused on samad: vajate Apify kontot ja API Tokenit, vajate Node.js 20.6+ keskkonda.
Oluline on tähele panna, et Apify MCP Serveri SSE edastusmeetod kaotatakse 1. aprillil 2026, seega tuleb see uuendada Streamable HTTP meetodiks. Kui hakkate seadistama, kasutage lihtsalt ülaltoodud soovitatud seadistust, see on juba uus meetod.
Muud tähelepanuväärsed lahendused[[HTMLPLACEHOLDER0]]
[[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER_4]]

