Claude Code + Apify, esteettömän tiedonkeruun mahdollisuudet

3/3/2026
6 min read

Claude Code + Apify, esteettömän tiedonkeruun mahdollisuudet

Claude Code + ApifyHei kaikki, olen Lu Gong.

Kun käytät Claude Codea, erityisesti Suunnitelma-tilassa, sinulla on usein tarve käyttää WebSearch-työkalua verkkosivustojen tietojen keräämiseen. Mutta usein kohtaat Fetch error -tilanteita.

Tämä on itse asiassa vanha ongelma. Claude Code -ohjelman mukana tulevat WebFetch- ja WebSearch-työkalut riittävät 80 %:ssa tapauksista tiedonhakuun ja tutkimukseen, mutta kun kohtaat JS-renderöityjä sivuja, kirjautumista vaativia sivustoja tai suuria tietomääriä, sisäänrakennetut työkalut eivät enää riitä.

Kaksi päivää sitten näin Santiago (@svpino, tunnettu AI/ML-bloggaaja) jakavan ratkaisun, jossa hän sanoi, että Claude Codea voi käyttää reaaliaikaisten rakenteellisten tietojen hakemiseen mistä tahansa verkkosivustosta, ja palautettavat tiedot ovat suoraan käytettävissä olevia taulukoita, eivätkä pitkiä tekstikappaleita. Kokeilin sitä itse, ja se toimi todella hyvin.

Tänään puhumme siitä, miten voit lisätä Claude Codeen kyvyn kerätä tietoja verkosta, kaksi polkua, valitse tarpeesi mukaan.

Claude Code -ohjelman sisäänrakennettujen verkkotyökalujen heikkoudet

Claude Code -ohjelmassa on kaksi sisäänrakennettua verkkotyökalua: WebSearch, joka vastaa hausta, ja WebFetch, joka vastaa sivun sisällön keräämisestä.

WebSearch on melko yksinkertainen; annat sille hakusanan, ja se palauttaa asiaankuuluvia linkkejä ja otsikoita. WebFetch on hieman monimutkaisempi; annat sille URL-osoitteen ja kysymyksen, ja se kerää sivun sisällön, muuntaa HTML:n Markdowniksi Turndown-kirjaston avulla, katkaisee sen 100 KB:iin ja käyttää kevyttä mallia (Haiku) tiivistämään sen.

Yksinkertaisesti sanottuna, nämä kaksi työkalua ovat kuin yksinkertainen selain. Ne toimivat, mutta niissä on muutama vakava puute.

Suurin ongelma on, että ne eivät voi renderöidä JS:ää. Nykyään monet verkkosivustot ovat SPA (yksisivuisia sovelluksia), ja sisältö ladataan dynaamisesti JS:n avulla. X/Twitter, monet verkkokauppapaikat, erilaiset SaaS-taustat, WebFetch ei voi kerätä todellista sisältöä, vaan saa vain tyhjät kehykset.

Myös roskapostinesto-ominaisuus on käytännössä nolla. Se ei tue proxy-kierrosta, eikä se voi käsitellä CAPTCHA-tunnistuksia; jos kohtaat verkkosivuston, jossa on roskapostinestomekanismeja, se on vain avuton.

Toinen kipupiste on, että se palauttaa vain tekstitiivistelmiä. Jos haluat saada rakenteellisia tietoja (kuten tuotteen hintaluettelo, käyttäjäarvostelut, kilpailijoiden toimintojen vertailu), WebFetch ei voi tehdä sitä; se antaa sinulle aina tiivistetyn tekstin.

Nämä kolme heikkoutta yhdessä tekevät Claude Codesta aina vaikeakäyttöisen tiedonkeruussa. Mutta nyt on ratkaisu.

Menetelmä 1: Apify Agent Skills

Apify on vanha pilvipohjainen verkkosivustojen keruualusta, joka on toiminut verkkosivujen keruussa ja automaatiossa monia vuosia. Äskettäin he julkaisivat Agent Skills -nimisen paketin, joka yksinkertaisesti sanottuna on joukko esivalmistettuja taitopaketteja, jotka opettavat AI Coding Agentia keräämään tietoja.

GitHub-repositorion osoite: https://github.com/apify/agent-skills

Tämä taitopaketti tukee Claude Codea, Cursor, Codex, Gemini CLI ja muita suosittuja AI-ohjelmointityökaluja. Tällä hetkellä on yhteensä 12 taitoa, jotka kattavat laajan alueen.

Ydinapify-ultimate-scraper on monikäyttöinen verkkosivustojen keruuta varten tarkoitettu taito, joka voi kerätä tietoja Instagramista, Facebookista, TikTokista, YouTubesta, Google Mapsista, Google Hausta jne. Tärkeintä on, että se palauttaa rakenteellisia tietoja, jotka voidaan suoraan viedä CSV- tai JSON-muodossa, ja niitä voi käyttää heti.

Muut taidot kattavat kilpailija-analyysin, brändin maineen seurannan, verkkokauppatietojen keruun, KOL-havainnot, potentiaalisten asiakkaiden hankinnan, trendianalyysin jne. Jos teet markkinatutkimusta tai liiketoimintatietojen analyysiä, tämä paketti on suorastaan ihmeellinen.

Claude Codeen tämän taitopaketin asentaminen on myös erittäin helppoa. Edellytyksenä on Apify-tili (rekisteröidy apify.com-sivustolla, siellä on ilmainen käyttöoikeus), ja saatuaan API-tokenin voit aloittaa konfiguroinnin.

Asennus jakautuu kahteen vaiheeseen. Ensiksi lisää markkinalähteet:/plugin marketplace add https://github.com/apify/agent-skills asenna tarvittavat taidot, kuten yleinen verkkosivustojen kaapija:

/plugin install apify-ultimate-scraper@apify-agent-skills voit myös käyttää yleistä npx-menetelmää, jolla voit asentaa kaikki taidot kerralla:

npx skills add apify/agent-skills Asennuksen jälkeen älä unohda määrittää API-tokenisi projektin juurihakemiston .env-tiedostoon:

APIFYTOKEN=tokenisi

Esimerkiksi Youtube-videoiden tietojen kaapiminen

Tässä on yksi keskeinen seikka. Santiago korosti toistuvasti twiitissään, että tämän ratkaisun ydinetu on palauttaa jäsenneltyjä tietoja. Esimerkiksi, jos pyydät Claude Codea kaappaamaan tietyn verkkokaupan tuotelistan, saat järjestetyn taulukon (tuotenimi, hinta, arvio, linkki), jota voidaan käyttää suoraan analyysiin, mikä on paljon käytännöllisempää kuin WebFetchin palauttama tekstiyhteenveto.

Apifyn hinnoittelumalli perustuu tuloksiin, eli vain onnistuneista tietojen kaappauksista veloitetaan. Kuitenkin henkilökohtaisille käyttäjille ilmainen käyttöoikeus riittää moniin asioihin.

Menetelmä 2: Apify MCP Server

Jos haluat joustavampaa hallintaa tai jos taidot eivät kata skenaariota, on toinen vaihtoehto: liity suoraan Apify-alustaan MCP:n (Model Context Protocol) kautta.

Apify MCP Serverin kautta Claude Code voi suoraan kutsua tuhansia valmiita verkkosivustojen kaapijoita ja automaatiotyökaluja Apify Storesta.

GitHub-repo-osoite: https://github.com/apify/apify-mcp-server

MCP-ratkaisun konfigurointi ei myöskään ole monimutkaista. Suosittelemme käyttämään isännöityä etäpalvelinta, koska se on helpoin tapa konfiguroida. Lisää MCP-konfiguraatiotiedostoosi:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer APIFYTOKENisi" } } } } Jos haluat mieluummin paikallista käyttöä, voit käyttää Stdio-menetelmää:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "APIFYTOKENisi" } } } }` Kun olet määrittänyt kaiken, Claude Code voi käyttää työkaluja, kuten search-actors (hae käytettävissä olevia verkkosivustojen kaapijoita), call-actor (suorita verkkosivustojen kaapimistehtävä), get-dataset-items (hanki kaapauksen tulokset) jne.

Voit asentaa sekä taidot että MCP-menetelmän, ja ne voivat täydentää toisiaan.

Jos tarpeesi ovat korkean taajuuden ja kiinteän skenaarion (esimerkiksi kilpailijoiden hintojen kaappaaminen päivittäin), taidot ovat huolettomampi vaihtoehto, valmiit työnkulut ovat heti käyttövalmiita.

Jos tarpeesi ovat tilapäisiä ja skenaario vaihteleva (tänään kaapataan sosiaalista mediaa, huomenna hallituksen julkisia tietoja), MCP on joustavampi, Apify Storessa on yli 15000 näyttelijää, joita voidaan kutsua milloin tahansa.

Molempien menetelmien edellytykset ovat samat: tarvitset Apify-tilin ja API-tokenin, tarvitset Node.js 20.6+ -ympäristön.

On tärkeää huomata yksi aikaraja: Apify MCP Serverin SSE-siirtotapa poistuu käytöstä 1. huhtikuuta 2026, jolloin on päivitettävä Streamable HTTP -menetelmään. Jos aloitat konfiguroinnin nyt, voit käyttää yllä suositeltua konfiguraatiota, se on jo uusi menetelmä.

Muita huomionarvoisia ratkaisujaBrave Search MCP on Anthropicin virallisesti suosittelema hakuratkaisu, joka tarjoaa 2000 ilmaista kyselyä kuukaudessa, ja se sopii päivittäiseen hakujen täydentämiseen, mutta se on vain hakukone, eikä se voi tehdä strukturoitua tietojen keruuta.

Playwright MCP voi tehdä todellista selainrenderöintiä ja käsitellä JavaScript-dynaamisia sivuja, mikä sopii niille verkkosivustoille, joita WebFetch ei pysty käsittelemään. Mutta se on enemmän suuntautunut automatisoituihin toimiin, eikä se ole yhtä kätevä suurten tietomäärien keruussa kuin Apify.

Bright Data MCP kulkee yritystason reittiä, tukee proxy-kierrosta ja CAPTCHA-käsittelyä, ja se julkaisi vuonna 2026 uuden ilmaisen tason (5000 MCP-pyyntöä kuukaudessa), joka sopii tilanteisiin, joissa on tarpeen ohittaa roskapostisuojamekanismeja.

Nämä ratkaisut painottavat eri asioita, ja niitä voidaan yhdistää tarpeen mukaan. Nykyinen yhdistelmäni on sisäänrakennettu WebFetch/WebSearch päivittäisten tietojen hakemistarpeiden käsittelyyn, ja Apify Skills strukturoitujen tietojen keruuseen.

Claude Coden verkkoyhteyskyky, sisäänrakennetut työkalut kattavat 80 % päivittäisistä tilanteista, mutta se jäljelle jäävä 20 % (JS-renderöinti, roskapostinesto, strukturoitu data) on juuri se, mitä monissa käytännön töissä ei voi välttää. Apifyn Agent Skills ja MCP Server täyttävät tämän aukon, ja konfigurointiprosessi ei ole monimutkainen, joten suosittelen erittäin paljon kokeilemaan niitä, joilla on tietojen keruutarpeita.

Published in Technology

You Might Also Like