Claude Code + Apify, colectare de date fără bariere de pe întreaga rețea
Claude Code + Apify, colectare de date fără bariere de pe întreaga rețea
Salutare tuturor, sunt Lu Gong.
Când folosiți Claude Code, în special în modul Plan, adesea aveți nevoie să utilizați instrumentul WebSearch pentru a colecta date de pe paginile web. Dar întâmpinați frecvent situații de eroare Fetch.
Aceasta este, de fapt, o problemă mai veche. Instrumentele WebFetch și WebSearch incluse în Claude Code sunt suficiente pentru a căuta informații și a face cercetări în 80% din scenarii, dar când vine vorba de pagini cu redare JS, site-uri care necesită autentificare sau cerințe de colectare de date la scară largă, instrumentele încorporate nu fac față.
Acum câteva zile, am văzut că Santiago (@svpino, un blogger cunoscut în domeniul AI/ML) a împărtășit o soluție. El a spus că se poate folosi Claude Code pentru a extrage date structurate în timp real de pe orice site, iar rezultatul este un tabel utilizabil, nu un rezumat lung de text. Am încercat și, într-adevăr, este foarte util.
Astăzi vom discuta despre cum să echipăm Claude Code cu capacitatea de a colecta date de pe întreaga rețea, două căi, alegeți în funcție de necesitate.
Limitările instrumentelor de conectare încorporate în Claude Code
Claude Code vine cu două instrumente de conectare: WebSearch pentru căutare și WebFetch pentru a colecta conținutul paginilor.
WebSearch este destul de simplu, îi oferiți un cuvânt cheie de căutare și vă returnează linkuri și titluri relevante. WebFetch este puțin mai complex, îi oferiți un URL și o întrebare, va colecta conținutul paginii, va transforma HTML-ul în Markdown folosind biblioteca Turndown, va tăia la 100KB și apoi va folosi un model ușor (Haiku) pentru a vă rezuma.
Pe scurt, aceste două instrumente sunt o versiune simplificată a unui browser. Pot fi folosite, dar au câteva defecte majore.
Cea mai mare problemă este că nu pot reda JS. Acum, multe site-uri sunt SPA (aplicații cu o singură pagină), iar conținutul este încărcat dinamic prin JS. X/Twitter, multe platforme de comerț electronic, diverse back-end-uri SaaS, WebFetch nu poate obține conținutul real, ci doar un shell gol.
Capacitatea de a evita crawling-ul este, de asemenea, practic zero. Nu suportă rotația proxy-urilor, nu poate gestiona CAPTCHA, iar când întâlnește site-uri cu mecanisme de protecție împotriva crawling-ului, nu poate face nimic.
Un alt punct dureros este că returnează doar rezumate de text. Dacă doriți să obțineți date structurate (de exemplu, liste de prețuri ale produselor, liste de recenzii ale utilizatorilor, comparații de funcții ale produselor concurente), WebFetch nu poate face asta, vă oferă întotdeauna un text comprimat.
Aceste trei limitări combinate fac ca Claude Code să fie întotdeauna lipsit de ușurința de utilizare în ceea ce privește colectarea de date. Dar acum există o soluție.
Metoda 1: Apify Agent Skills
Apify este o platformă de crawling cloud consacrată, care se ocupă cu colectarea de pagini web și automatizare de mulți ani. Recent, au lansat un set de Agent Skills, pe scurt, o serie de pachete de abilități predefinite, care învață Agentul de Codare AI cum să facă colectarea de date.
Adresa depozitului GitHub: https://github.com/apify/agent-skills
Aceste Skills sunt compatibile cu Claude Code, Cursor, Codex, Gemini CLI și alte instrumente populare de programare AI. În prezent, există 12 abilități, acoperind o gamă foarte largă.
Apify-ultimate-scraper este abilitatea principală, un skill universal de crawling, care poate colecta date de pe platforme precum Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search etc. Cheia este că returnează date structurate, care pot fi exportate direct în CSV sau JSON, gata de utilizat.
Celelalte abilități acoperă analize de produse concurente, monitorizarea reputației brandului, colectarea de date de comerț electronic, descoperirea KOL, obținerea de clienți potențiali, analize de tendințe și alte scenarii. Dacă faceți cercetări de piață sau analize de date comerciale, acest set este pur și simplu magic.
Instalarea acestui set de Skills în Claude Code este, de asemenea, foarte convenabilă. Condiția este să aveți un cont Apify (înregistrați-vă pe apify.com, există o limită gratuită), după ce obțineți token-ul API, puteți începe configurarea.
Instalarea se desfășoară în două etape. Mai întâi, adăugați sursa de piață:/plugin marketplace add https://github.com/apify/agent-skills Apoi instalează abilitățile de care ai nevoie, cum ar fi crawler-ul universal:
/plugin install apify-ultimate-scraper@apify-agent-skills Poți de asemenea să folosești metoda npx generală pentru a instala toate abilitățile deodată:
npx skills add apify/agent-skills După instalare, nu uita să configurezi token-ul tău API în fișierul .env din directorul rădăcină al proiectului:
APIFYTOKEN=tokenultău
De exemplu, pentru a extrage datele video de pe Youtube
Aici este un punct cheie. Santiago subliniază în mod repetat în tweet-urile sale că avantajul principal al acestei soluții este că returnează date structurate. De exemplu, dacă îi ceri lui Claude Code să extragă lista de produse de pe o platformă de comerț electronic, ceea ce primești este un tabel bine organizat (nume produs, preț, rating, link), care poate fi folosit direct pentru analiză, fiind mult mai util decât rezumatul textual returnat de WebFetch.
Modelul de tarifare Apify este pe baza rezultatelor, adică se plătește doar dacă datele sunt extrase cu succes. Totuși, pentru utilizatorii individuali, limita gratuită este suficientă pentru a face multe lucruri.
Metoda 2: Apify MCP Server
Dacă dorești un control mai flexibil sau dacă abilitățile nu acoperă scenariul tău, există o a doua opțiune: conectarea directă la platforma Apify prin MCP (Model Context Protocol).
Prin Apify MCP Server, Claude Code poate apela direct la mii de crawleri și instrumente de automatizare disponibile în Apify Store.
Adresa repository-ului GitHub: https://github.com/apify/apify-mcp-server
Configurarea soluției MCP nu este complicată. Se recomandă utilizarea unui server remote gestionat, deoarece configurarea este cea mai simplă. Adaugă în fișierul tău de configurare MCP:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer tokenultăuAPIFY" } } } } Dacă preferi să rulezi local, poți folosi metoda Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "tokenultău_APIFY" } } } }` Odată configurat, Claude Code va putea apela instrumente precum search-actors (căutare crawleri disponibili), call-actor (executarea sarcinii crawler-ului), get-dataset-items (obținerea rezultatelor extrase) etc.
Poți instala ambele metode, Skills și MCP, deoarece se pot completa reciproc.
Dacă cerințele tale sunt frecvente și scenariul este fix (de exemplu, extragerea prețurilor competitorilor o dată pe zi), utilizarea Skills este mai convenabilă, fluxurile de lucru predefinite fiind gata de utilizare.
Dacă cerințele tale sunt temporare și scenariile se schimbă frecvent (astăzi extragi date de pe rețele sociale, mâine date publice guvernamentale), utilizarea MCP este mai flexibilă, Apify Store având peste 15000 de Actori care pot fi apelați oricând.
Ambele metode au aceleași cerințe: un cont Apify și un token API, precum și un mediu Node.js 20.6+.
Trebuie să acorzi atenție unui moment important: metoda de transmisie SSE a Apify MCP Server va fi abandonată pe 1 aprilie 2026, iar atunci va trebui să actualizezi la metoda Streamable HTTP. Dacă începi acum configurarea, folosește direct configurația recomandată mai sus, care este deja noua metodă.

