Claude Code + Apify, grumbullimi i të dhënave nga e gjithë rrjeti pa pengesa
Claude Code + Apify, grumbullimi i të dhënave nga e gjithë rrjeti pa pengesa
Përshëndetje të gjithëve, unë jam Lu Gong.
Kur përdorni Claude Code, veçanërisht në modin Plan, shpesh ka nevojë për të ndihmuar me mjetin WebSearch për të grumbulluar të dhëna nga faqet e internetit. Por shpesh hasni në situatën e Fetch error.
Kjo në të vërtetë është një problem i vjetër. Me mjetet WebFetch dhe WebSearch të integruara në Claude Code, për të kërkuar informacion, për të bërë hulumtime, në 80% të skenarëve është e mjaftueshme, por sapo hasni në faqe të renderuara me JS, në vende që kërkojnë login, ose në nevojën për grumbullim të dhënash në masë, mjetet e integruara nuk e përballojnë dot.
Para dy ditësh, pashë Santiago (@svpino, një bloger i njohur në fushën e AI/ML) që ndante një zgjidhje, ai tha se mund të përdorim Claude Code për të tërhequr të dhëna strukturore në kohë reale nga çdo faqe interneti, dhe ajo që kthehet është një tabelë e përdorshme, jo një përmbledhje e gjatë teksti. E provova dhe vërtet funksionon shumë mirë.
Sot do të flasim se si t'i japim Claude Code aftësinë për të grumbulluar të dhëna nga e gjithë rrjeti, dy rrugë, zgjidhni sipas nevojës.
Dobësitë e mjeteve të integruara të lidhjes në Claude Code
Claude Code ka dy mjete të integruara për lidhje: WebSearch që përgjigjet për kërkimin, dhe WebFetch që përgjigjet për grumbullimin e përmbajtjes së faqeve.
WebSearch është relativisht i thjeshtë, i jepni një fjalë kërkimi dhe ai kthen lidhje dhe tituj përkatës. WebFetch është pak më i komplikuar, i jepni një URL dhe një pyetje, ai do të grumbullojë përmbajtjen e faqes, do ta kthejë HTML-në në Markdown përmes bibliotekës Turndown, do ta presë në 100KB dhe pastaj do të përdorë një model të lehtë (Haiku) për t'ju ndihmuar të përmbledhni.
Thënë ndryshe, këto dy mjete janë një version i thjeshtë i shfletuesit. Mund të përdoren, por kanë disa dobësi të rënda.
Problemi më i madh është se nuk mund të renderojë JS. Tani shumë faqe janë SPA (aplikacione me një faqe), përmbajtja ngarkohet dinamikisht me JS. X/Twitter, shumë platforma tregtare, dhe çdo lloj prapavije SaaS, WebFetch nuk arrin të grumbullojë përmbajtjen reale, vetëm merr një shell bosh.
Aftësia për të parandaluar grumbullimin gjithashtu është pothuajse zero. Nuk mbështet rotacionin e proxy-ve, nuk mund të trajtojë CAPTCHA, dhe kur hasni në faqe me mekanizma për të parandaluar grumbullimin, nuk keni çfarë të bëni.
Një tjetër pikë e dhimbjes është se kthen vetëm përmbledhje tekstuale. Nëse dëshironi të merrni të dhëna strukturore (p.sh. lista e çmimeve të produkteve, lista e komenteve të përdoruesve, krahasimi i funksioneve të konkurrentëve), WebFetch nuk mund ta bëjë këtë, ajo që merrni gjithmonë është një tekst i kompresuar.
Këto tre dobësi së bashku e bëjnë Claude Code të mungojë gjithmonë në lehtësinë e përdorimit për grumbullimin e të dhënave. Por tani ka një zgjidhje.
Metoda e parë: Aftësitë e Agjentit Apify
Apify është një platformë e njohur për grumbullimin e faqeve dhe automatizimin për shumë vite. Së fundmi ata lanë një grup Aftësish Agjenti, në terma të thjeshtë, është një grup aftësish të paracaktuara, të dizajnuara për të mësuar Agjentin e Kodimit të AI se si të bëjë grumbullimin e të dhënave.
Adresa e depozitës GitHub: https://github.com/apify/agent-skills
Ky grup Aftësish mbështet Claude Code, Cursor, Codex, Gemini CLI dhe mjete të tjera të njohura të programimit AI. Aktualisht ka gjithsej 12 aftësi, duke mbuluar një gamë të gjerë.
Aftësia kryesore apify-ultimate-scraper është një aftësi universale grumbullimi, e cila mund të grumbullojë të dhëna nga platforma si Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search etj. Çelësi është se ajo kthen të dhëna strukturore, të cilat mund të eksportohen direkt në CSV ose JSON, dhe mund të përdoren menjëherë.
Aftësi të tjera mbulojnë analiza konkurrentësh, monitorimin e reputacionit të markave, grumbullimin e të dhënave tregtare, zbulimin e KOL, marrjen e klientëve potencialë, analizën e trendeve dhe skenarë të tjerë. Nëse bëni hulumtime tregu ose analiza të të dhënave biznesore, ky grup është thjesht magjik.
Instalimi i këtij grupi Aftësish në Claude Code është gjithashtu shumë i lehtë. Kushti është të keni një llogari Apify (regjistrohuni në apify.com, ka një kuotë falas), dhe pas marrjes së Token-it API mund të filloni konfigurimin.
Instalimi përbëhet nga dy hapa. Së pari, shtoni burimin e tregut:/plugin marketplace add https://github.com/apify/agent-skillsInstaloni aftësitë që ju nevojiten, si p.sh. gjuetari universal:
/plugin install apify-ultimate-scraper@apify-agent-skillsMund të përdorni gjithashtu mënyrën e përgjithshme npx për të instaluar të gjitha aftësitë njëherësh:
npx skills add apify/agent-skillsPas instalimit, mos harroni të konfiguroni token-in tuaj API në skedarin .env në rrënjën e projektit:
APIFYTOKEN=token-i juaj
Për shembull, për të kapur të dhënat e videove në Youtube
Këtu është një pikë kyçe. Santiago thekson vazhdimisht në tweet-et e tij se avantazhi kryesor i këtij plani është kthimi i të dhënave të strukturuara. Për shembull, nëse i kërkoni Claude Code të kapë listën e produkteve në një platformë tregtare, do të merrni një tabelë të organizuar (emri i produktit, çmimi, vlerësimi, lidhja), e cila mund të përdoret drejtpërdrejt për analizë, shumë më e dobishme se përmbledhja tekstuale që kthehet nga WebFetch.
Modeli i faturimit të Apify është sipas rezultateve, që do të thotë se vetëm nëse kapni të dhëna me sukses, do të ketë një tarifë. Megjithatë, për përdoruesit individualë, kuota falas është e mjaftueshme për të bërë shumë gjëra.
Metoda e Dytë: Apify MCP Server
Nëse dëshironi kontroll më fleksibël, ose nëse aftësitë nuk mbulojnë skenarin tuaj, ka një rrugë të dytë: lidhja direkte me platformën Apify përmes MCP (Model Context Protocol).
Përmes Apify MCP Server, Claude Code mund të thërrasë drejtpërdrejt mijëra gjuetarë dhe mjete automatizimi të gatshme në Apify Store.
Adresa e depozitës GitHub: https://github.com/apify/apify-mcp-server
Konfigurimi i zgjidhjes MCP nuk është as i komplikuar. Rekomandohet të përdorni një server të menaxhuar në distancë, konfigurimi është më i lehtë. Shtoni në skedarin tuaj të konfigurimit MCP:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer token-i juaj APIFY" } } } }Nëse preferoni të ekzekutoni lokal, mund të përdorni mënyrën Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "token-i juaj APIFY" } } } }Pasi të keni bërë konfigurimin, Claude Code do të jetë në gjendje të thërrasë mjetet si search-actors (kërko gjuetarët e disponueshëm), call-actor (ekzekuto detyrën e gjuetarit), get-dataset-items (merr rezultatet e kapjes) etj.
Mund të instaloni të dy metodat, Skills dhe MCP, ato mund të plotësojnë njëra-tjetrën.
Nëse nevoja juaj është e shpeshtë, me skenar të fiksuar (p.sh. të kapni çmimin e konkurrentëve çdo ditë), përdorimi i Skills është më i lehtë, flukset e punës të paracaktuara janë gati për t'u përdorur.
Nëse nevoja juaj është e përkohshme, me skenar të ndryshueshëm (sot kapni të dhëna nga mediat sociale, nesër kapni të dhëna të hapura nga qeveria), përdorimi i MCP është më fleksibël, Apify Store ka mbi 15000 Aktorë që mund të thirren në çdo kohë.
Këto dy mënyra kanë të njëjtat kërkesa: nevojitet një llogari Apify dhe një token API, nevojitet një mjedis Node.js 20.6+.
Duhet të keni parasysh një pikë të rëndësishme kohore: mënyra e transmetimit SSE të Apify MCP Server do të hiqet më 1 Prill 2026, dhe atëherë do të nevojitet përditësimi në mënyrën Streamable HTTP. Nëse po filloni tani konfigurimin, thjesht përdorni konfigurimin e rekomanduar më sipër, është tashmë mënyra e re.
Zgjidhje të tjera që meritojnë vëmendjeBrave Search MCP është zgjidhja e rekomanduar nga Anthropic për kërkimin, me 2000 kërkesa falas në muaj, e përshtatshme për plotësimin e kërkimeve të përditshme, por është vetëm një motor kërkimi dhe nuk mund të bëjë mbledhje të dhënash të strukturuara.
Playwright MCP mund të bëjë renderim të vërtetë në shfletues, mund të përballojë faqet dinamike JavaScript, e përshtatshme për ato vende me ngarkesë të lartë JS që WebFetch nuk mund t'i menaxhojë. Por ajo është më shumë e orientuar drejt operacioneve automatike, nuk është aq e lehtë për mbledhjen e të dhënave në shkallë të gjerë si Apify.
Bright Data MCP ndjek një rrugë të nivelit të ndërmarrjeve, mbështet rotacionin e proxy-ve dhe trajtimin e CAPTCHA, në vitin 2026 ka lançuar një plan falas (5000 kërkesa MCP në muaj), e përshtatshme për skenarët që kanë nevojë të kalojnë mekanizmat e mbrojtjes nga gërmimi.
Këto zgjidhje kanë secila fokus të veçantë dhe mund të kombinohen sipas nevojës. Kombinimi im aktual është WebFetch/WebSearch të integruara për nevojat e përditshme të kërkimeve, dhe Apify Skills për mbledhjen e të dhënave të strukturuara.
Aftësia e lidhjes së Claude Code, me mjetet e integruara mbulon 80% të skenarëve të përditshëm, por ajo 20% e mbetur (renderimi JS, mbrojtja nga gërmimi, të dhëna të strukturuara) është pikërisht ajo që shumë punë praktike nuk mund ta shmangin. Aftësitë e Agjentëve të Apify dhe Serveri MCP e mbulojnë këtë boshllëk, procesi i konfigurimit nuk është i komplikuar, shumë e rekomandoj për studentët që kanë nevojë për mbledhjen e të dhënave.

