Claude Code + Apify, colectare de date fără bariere de pe întreaga rețea

3/3/2026
7 min read

Claude Code + Apify, colectare de date fără bariere de pe întreaga rețea

Claude Code + ApifySalutare tuturor, sunt Lu Gong.

Când folosiți Claude Code, în special în modul Plan, adesea aveți nevoie să utilizați instrumentul WebSearch pentru a colecta date de pe paginile web. Dar întâmpinați frecvent situații de eroare Fetch.

Aceasta este, de fapt, o problemă mai veche. Instrumentele WebFetch și WebSearch incluse în Claude Code sunt suficiente pentru a căuta informații și a face cercetări în 80% din scenarii, dar când vine vorba de pagini cu redare JS, site-uri care necesită autentificare sau cerințe de colectare de date la scară largă, instrumentele încorporate nu fac față.

Acum câteva zile, am văzut că Santiago (@svpino, un blogger cunoscut în domeniul AI/ML) a împărtășit o soluție. El a spus că se poate folosi Claude Code pentru a extrage date structurate în timp real de pe orice site, iar rezultatul este un tabel utilizabil, nu un rezumat lung de text. Am încercat și, într-adevăr, este foarte util.

Astăzi vom discuta despre cum să echipăm Claude Code cu capacitatea de a colecta date de pe întreaga rețea, două căi, alegeți în funcție de necesitate.

Limitările instrumentelor de conectare încorporate în Claude Code

Claude Code vine cu două instrumente de conectare: WebSearch pentru căutare și WebFetch pentru a colecta conținutul paginilor.

WebSearch este destul de simplu, îi oferiți un cuvânt cheie de căutare și vă returnează linkuri și titluri relevante. WebFetch este puțin mai complex, îi oferiți un URL și o întrebare, va colecta conținutul paginii, va transforma HTML-ul în Markdown folosind biblioteca Turndown, va tăia la 100KB și apoi va folosi un model ușor (Haiku) pentru a vă rezuma.

Pe scurt, aceste două instrumente sunt o versiune simplificată a unui browser. Pot fi folosite, dar au câteva defecte majore.

Cea mai mare problemă este că nu pot reda JS. Acum, multe site-uri sunt SPA (aplicații cu o singură pagină), iar conținutul este încărcat dinamic prin JS. X/Twitter, multe platforme de comerț electronic, diverse back-end-uri SaaS, WebFetch nu poate obține conținutul real, ci doar un shell gol.

Capacitatea de a evita crawling-ul este, de asemenea, practic zero. Nu suportă rotația proxy-urilor, nu poate gestiona CAPTCHA, iar când întâlnește site-uri cu mecanisme de protecție împotriva crawling-ului, nu poate face nimic.

Un alt punct dureros este că returnează doar rezumate de text. Dacă doriți să obțineți date structurate (de exemplu, liste de prețuri ale produselor, liste de recenzii ale utilizatorilor, comparații de funcții ale produselor concurente), WebFetch nu poate face asta, vă oferă întotdeauna un text comprimat.

Aceste trei limitări combinate fac ca Claude Code să fie întotdeauna lipsit de ușurința de utilizare în ceea ce privește colectarea de date. Dar acum există o soluție.

Metoda 1: Apify Agent Skills

Apify este o platformă de crawling cloud consacrată, care se ocupă cu colectarea de pagini web și automatizare de mulți ani. Recent, au lansat un set de Agent Skills, pe scurt, o serie de pachete de abilități predefinite, care învață Agentul de Codare AI cum să facă colectarea de date.

Adresa depozitului GitHub: https://github.com/apify/agent-skills

Aceste Skills sunt compatibile cu Claude Code, Cursor, Codex, Gemini CLI și alte instrumente populare de programare AI. În prezent, există 12 abilități, acoperind o gamă foarte largă.

Apify-ultimate-scraper este abilitatea principală, un skill universal de crawling, care poate colecta date de pe platforme precum Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search etc. Cheia este că returnează date structurate, care pot fi exportate direct în CSV sau JSON, gata de utilizat.

Celelalte abilități acoperă analize de produse concurente, monitorizarea reputației brandului, colectarea de date de comerț electronic, descoperirea KOL, obținerea de clienți potențiali, analize de tendințe și alte scenarii. Dacă faceți cercetări de piață sau analize de date comerciale, acest set este pur și simplu magic.

Instalarea acestui set de Skills în Claude Code este, de asemenea, foarte convenabilă. Condiția este să aveți un cont Apify (înregistrați-vă pe apify.com, există o limită gratuită), după ce obțineți token-ul API, puteți începe configurarea.

Instalarea se desfășoară în două etape. Mai întâi, adăugați sursa de piață:/plugin marketplace add https://github.com/apify/agent-skills Apoi instalează abilitățile de care ai nevoie, cum ar fi crawler-ul universal:

/plugin install apify-ultimate-scraper@apify-agent-skills Poți de asemenea să folosești metoda npx generală pentru a instala toate abilitățile deodată:

npx skills add apify/agent-skills După instalare, nu uita să configurezi token-ul tău API în fișierul .env din directorul rădăcină al proiectului:

APIFYTOKEN=tokenultău

De exemplu, pentru a extrage datele video de pe Youtube

Aici este un punct cheie. Santiago subliniază în mod repetat în tweet-urile sale că avantajul principal al acestei soluții este că returnează date structurate. De exemplu, dacă îi ceri lui Claude Code să extragă lista de produse de pe o platformă de comerț electronic, ceea ce primești este un tabel bine organizat (nume produs, preț, rating, link), care poate fi folosit direct pentru analiză, fiind mult mai util decât rezumatul textual returnat de WebFetch.

Modelul de tarifare Apify este pe baza rezultatelor, adică se plătește doar dacă datele sunt extrase cu succes. Totuși, pentru utilizatorii individuali, limita gratuită este suficientă pentru a face multe lucruri.

Metoda 2: Apify MCP Server

Dacă dorești un control mai flexibil sau dacă abilitățile nu acoperă scenariul tău, există o a doua opțiune: conectarea directă la platforma Apify prin MCP (Model Context Protocol).

Prin Apify MCP Server, Claude Code poate apela direct la mii de crawleri și instrumente de automatizare disponibile în Apify Store.

Adresa repository-ului GitHub: https://github.com/apify/apify-mcp-server

Configurarea soluției MCP nu este complicată. Se recomandă utilizarea unui server remote gestionat, deoarece configurarea este cea mai simplă. Adaugă în fișierul tău de configurare MCP:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer tokenultăuAPIFY" } } } } Dacă preferi să rulezi local, poți folosi metoda Stdio:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "tokenultău_APIFY" } } } }` Odată configurat, Claude Code va putea apela instrumente precum search-actors (căutare crawleri disponibili), call-actor (executarea sarcinii crawler-ului), get-dataset-items (obținerea rezultatelor extrase) etc.

Poți instala ambele metode, Skills și MCP, deoarece se pot completa reciproc.

Dacă cerințele tale sunt frecvente și scenariul este fix (de exemplu, extragerea prețurilor competitorilor o dată pe zi), utilizarea Skills este mai convenabilă, fluxurile de lucru predefinite fiind gata de utilizare.

Dacă cerințele tale sunt temporare și scenariile se schimbă frecvent (astăzi extragi date de pe rețele sociale, mâine date publice guvernamentale), utilizarea MCP este mai flexibilă, Apify Store având peste 15000 de Actori care pot fi apelați oricând.

Ambele metode au aceleași cerințe: un cont Apify și un token API, precum și un mediu Node.js 20.6+.

Trebuie să acorzi atenție unui moment important: metoda de transmisie SSE a Apify MCP Server va fi abandonată pe 1 aprilie 2026, iar atunci va trebui să actualizezi la metoda Streamable HTTP. Dacă începi acum configurarea, folosește direct configurația recomandată mai sus, care este deja noua metodă.

Alte soluții demne de menționatBrave Search MCP este soluția de căutare recomandată oficial de Anthropic, oferind 2000 de interogări gratuite pe lună, potrivită pentru completarea căutărilor zilnice, dar este doar un motor de căutare și nu poate efectua colectarea de date structurate.

Playwright MCP poate efectua redare reală în browser, fiind capabil să gestioneze paginile dinamice JavaScript, fiind potrivit pentru acele site-uri cu un conținut JS greu de gestionat de WebFetch. Totuși, este mai orientat spre automatizarea operațiunilor și nu este la fel de convenabil ca Apify pentru colectarea de date la scară largă.

Bright Data MCP urmează o abordare de nivel enterprise, suportând rotația proxy și gestionarea CAPTCHA, având în 2026 o nouă opțiune gratuită (5000 de cereri MCP pe lună), potrivită pentru scenariile care necesită depășirea mecanismelor de protecție împotriva scraping-ului.

Aceste soluții au fiecare un accent diferit și pot fi combinate în funcție de necesități. Combinarea mea actuală include WebFetch/WebSearch încorporat pentru nevoile de căutare zilnică, iar Apify Skills pentru colectarea de date structurate.

Capacitatea de conectare a Claude Code, cu instrumentele sale încorporate, poate acoperi 80% din scenariile zilnice, dar cele 20% rămase (redare JS, protecție împotriva scraping-ului, date structurate) sunt exact acele aspecte care nu pot fi evitate în multe lucrări practice. Abilitățile Agentului Apify și Serverul MCP acoperă această lacună, iar procesul de configurare nu este complicat, fiind foarte recomandat colegilor care au nevoie de colectarea de date să încerce.

Published in Technology

You Might Also Like