Claude Code + Apify, kukusanya data kutoka mtandao bila vizuizi

3/3/2026
7 min read

Claude Code + Apify, kukusanya data kutoka mtandao bila vizuizi

Claude Code + ApifyHabari za asubuhi, mimi ni Lu Gong.

Wakati unatumia Claude Code, hasa katika hali ya Mpango, mara nyingi kuna haja ya kutumia zana ya WebSearch kukusanya data za wavuti. Lakini mara nyingi unakutana na hali ya makosa ya Fetch.

Hii ni tatizo la zamani. Kutumia zana za WebFetch na WebSearch zinazokuja na Claude Code, kutafuta taarifa, kufanya utafiti, katika asilimia 80 ya hali inatosha, lakini unapokutana na kurasa zinazohitaji JS kuandikwa, tovuti zinazohitaji kuingia, au mahitaji ya ukusanyaji wa data kwa wingi, zana zilizojumuishwa hazihimili.

Siku chache zilizopita, niliona Santiago (@svpino, blogger maarufu katika uwanja wa AI/ML) akishiriki suluhisho, alisema unaweza kutumia Claude Code kuvuta data za muundo wa wakati halisi kutoka tovuti yoyote, na inarudisha jedwali linaloweza kutumika moja kwa moja, sio ile muhtasari mrefu wa maandiko. Nilijaribu, na kweli inafanya kazi vizuri.

Leo tutazungumzia jinsi ya kuongeza uwezo wa kukusanya data za mtandao kwa Claude Code, njia mbili, chagua kulingana na mahitaji.

Mapungufu ya zana za mtandao zilizojumuishwa za Claude Code

Claude Code inakuja na zana mbili za mtandao: WebSearch inahusika na kutafuta, WebFetch inahusika na kukusanya maudhui ya kurasa.

WebSearch ni rahisi, unampa neno la kutafuta, inarudisha viungo na vichwa vinavyohusiana. WebFetch ni kidogo ngumu, unampa URL na swali, itakusanya maudhui ya ukurasa, kupitia maktaba ya Turndown inabadilisha HTML kuwa Markdown, ikikata hadi 100KB, kisha inatumia mfano mwepesi (Haiku) kukusaidia kufupisha.

Kwa kusema wazi, zana hizi mbili ni toleo rahisi la kivinjari. Inaweza kutumika, lakini ina mapungufu kadhaa.

Tatizo kubwa ni kwamba haiwezi kuandika JS. Sasa tovuti nyingi ni SPA (maombi ya ukurasa mmoja), maudhui yanategemea JS kupakia kwa nguvu. X/Twitter, majukwaa mengi ya biashara, na aina mbalimbali za nyuma za SaaS, WebFetch haiwezi kupata maudhui halisi, inaweza tu kupata ganda tupu.

Uwezo wa kupambana na kuzuia pia ni karibu sifuri. Haina msaada wa kubadilisha wakala, haiwezi kushughulikia CAPTCHA, unapokutana na tovuti zenye mfumo wa kuzuia, unaweza tu kukata tamaa.

Pia kuna maumivu ya kurudi tu muhtasari wa maandiko. Ikiwa unataka kupata data za muundo (kama vile orodha ya bei za bidhaa, orodha ya maoni ya watumiaji, kulinganisha kazi za bidhaa), WebFetch haiwezi kufanya hivyo, inakupa kila wakati kipande cha maandiko kilichoshughulikiwa.

Haya mapungufu matatu pamoja yanafanya Claude Code kukosa urahisi wa matumizi katika ukusanyaji wa data. Lakini sasa kuna suluhisho.

Njia ya Kwanza: Ujuzi wa Apify Agent

Apify ni jukwaa la zamani la wavuti la kupeperusha, limekuwa likifanya ukusanyaji wa wavuti na automatisering kwa miaka mingi. Karibu, wameanzisha seti ya Ujuzi wa Agent, kwa kifupi ni seti ya pakiti za ujuzi zilizotengenezwa awali, maalum kwa kufundisha AI Coding Agent jinsi ya kufanya ukusanyaji wa data.

Anwani ya ghala la GitHub: https://github.com/apify/agent-skills

Seti hii ya Ujuzi inasaidia Claude Code, Cursor, Codex, Gemini CLI na zana nyingine maarufu za programu za AI. Hivi sasa kuna ujuzi 12, ikifunika maeneo mengi.

Ujuzi wa msingi wa apify-ultimate-scraper ni ujuzi wa kupeperusha wa ulimwengu, unaweza kukusanya data kutoka Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search na majukwaa mengine. Muhimu ni kwamba inarudisha data za muundo, inaweza kutolewa moja kwa moja kama CSV au JSON, unaweza kuitumia mara moja.

Ujuzi wengine unashughulikia uchambuzi wa bidhaa, ufuatiliaji wa sifa za chapa, ukusanyaji wa data za biashara, kugundua KOL, kupata wateja wa baadaye, uchambuzi wa mwenendo na hali nyingine. Ikiwa unafanya utafiti wa soko au uchambuzi wa data za biashara, seti hii ni ya ajabu.

Kuweka seti hii ya Ujuzi ndani ya Claude Code pia ni rahisi. Sharti ni kuwa na akaunti ya Apify (jiandikishe kwenye apify.com, kuna kiwango cha bure), baada ya kupata API Token unaweza kuanza kuunda mipangilio.

Kuweka kunagawanywa katika hatua mbili. Kwanza ongeza chanzo cha soko:/plugin marketplace add https://github.com/apify/agent-skills Kisha sakinisha ujuzi unahitaji, kama vile buibui wa ulimwengu:

/plugin install apify-ultimate-scraper@apify-agent-skills pia unaweza kutumia njia ya kawaida ya npx kufunga ujuzi wote kwa wakati mmoja:

npx skills add apify/agent-skills Baada ya kusakinisha usisahau kuweka API Token yako kwenye faili ya .env katika saraka ya mradi:

APIFYTOKEN=token yako

Kwa mfano, kukusanya data za video za Youtube

Hapa kuna jambo muhimu. Santiago anasisitiza mara kwa mara katika tweet zake kwamba faida kuu ya mpango huu ni kurudisha data iliyopangwa. Kwa mfano, ukimwambia Claude Code akusanye orodha ya bidhaa kutoka jukwaa fulani la biashara, unapata jedwali lililoandaliwa (jina la bidhaa, bei, kiwango, kiungo), ambalo linaweza kutumika moja kwa moja kwa uchambuzi, ni bora zaidi kuliko muhtasari wa maandiko unaorudishwa na WebFetch.

Mfumo wa malipo wa Apify unategemea matokeo, yaani, ni kwamba unalipia tu unapofanikiwa kukusanya data. Hata hivyo, kwa watumiaji binafsi, kiwango cha bure kinatosha kufanya mambo mengi.

Njia ya Pili: Apify MCP Server

Ikiwa unataka udhibiti zaidi, au kama ujuzi haujafunika hali yako, kuna njia ya pili: kuungana moja kwa moja na jukwaa la Apify kupitia MCP (Model Context Protocol).

Kupitia Apify MCP Server, Claude Code anaweza moja kwa moja kuita maelfu ya buibui na zana za automatisering zilizopo katika Duka la Apify.

Anwani ya ghala la GitHub: https://github.com/apify/apify-mcp-server

Usanidi wa mpango wa MCP pia si mgumu. Tunapendekeza kutumia njia ya seva ya mbali iliyohifadhiwa, ambayo ni rahisi zaidi. Ongeza kwenye faili yako ya usanidi ya MCP:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer token yako ya APIFY" } } } } Ikiwa unataka kuendesha kwenye kompyuta yako, unaweza kutumia njia ya Stdio:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "token yako ya APIFY" } } } } Baada ya kusanidi, Claude Code anaweza kutumia zana kama search-actors (kutafuta buibui zinazopatikana), call-actor (kufanya kazi ya buibui), get-dataset-items (kupata matokeo ya kukusanya) n.k.

Ujuzi na njia ya MCP zinaweza kusakinishwa zote, na zinaweza kukamilishana.

Ikiwa mahitaji yako ni ya mara kwa mara, na hali ni thabiti (kama vile kukusanya bei za washindani kila siku), kutumia Ujuzi ni rahisi zaidi, na mchakato wa kazi umeandaliwa tayari.

Ikiwa mahitaji yako ni ya muda mfupi, na hali inabadilika (leo kukusanya data za mitandao ya kijamii, kesho kukusanya data za serikali), kutumia MCP ni rahisi zaidi, Duka la Apify lina waigizaji zaidi ya 15000 wanaoweza kuitwa wakati wowote.

Masharti ya njia zote mbili ni sawa: unahitaji akaunti ya Apify na API Token, unahitaji mazingira ya Node.js 20.6+.

Ni lazima uangalie wakati fulani: njia ya usafirishaji ya SSE ya Apify MCP Server itasitishwa tarehe 1 Aprili 2026, na itahitaji kubadilishwa kuwa njia ya Streamable HTTP. Ikiwa unaanza kusanidi sasa, tumia usanidi uliopendekezwa hapo juu, tayari ni njia mpya.Kando na Apify, kuna mipango kadhaa ya utafutaji ya MCP inayostahili kujulikana.

Brave Search MCP ni mpango wa utafutaji uliopendekezwa rasmi na Anthropic, unao toa maswali 2000 bure kila mwezi, unafaa kama nyongeza ya utafutaji wa kila siku, lakini ni injini ya utafutaji tu, haiwezi kufanya ukusanyaji wa data iliyopangwa.

Playwright MCP inaweza kufanya uwasilishaji wa kivinjari halisi, inaweza kushughulikia kurasa za JavaScript zenye nguvu, inafaa kwa maeneo ya JS ambayo WebFetch haiwezi kushughulikia. Lakini inategemea zaidi operesheni za kiotomatiki, si rahisi kama Apify kufanya ukusanyaji wa data kwa kiwango kikubwa.

Bright Data MCP inafuata njia ya kiwango cha biashara, inaunga mkono mzunguko wa wakala na usindikaji wa CAPTCHA, mwaka wa 2026 ilizindua mpango mpya wa bure (maswali 5000 ya MCP kila mwezi), inafaa kwa hali zinazohitaji kuvunja mitambo ya kupambana na kuiba data.

Mipango hii inaelekeza kwenye maeneo tofauti, inaweza kuunganishwa kulingana na mahitaji. Mchanganyiko wangu sasa ni WebFetch/WebSearch iliyojumuishwa kushughulikia mahitaji ya kutafuta taarifa za kila siku, Apify Skills inashughulikia ukusanyaji wa data iliyopangwa.

Uwezo wa kuunganishwa wa Claude Code, zana zilizojumuishwa zinaweza kufunika asilimia 80 ya hali za kila siku, lakini ile asilimia 20 iliyobaki (uwasilishaji wa JS, kupambana na kuiba data, data iliyopangwa) ndiyo hasa inayoonekana katika kazi nyingi halisi. Ujuzi wa Agent wa Apify na Server ya MCP inajaza pengo hili, mchakato wa usanidi si mgumu, napendekeza sana wanafunzi wenye mahitaji ya ukusanyaji wa data kujaribu.

Published in Technology

You Might Also Like