Claude Code + Apify, બિન અવરોધિત વેબ ડેટા કલેક્શન
Claude Code + Apify, બિન અવરોધિત વેબ ડેટા કલેક્શન
નમસ્તે, હું લુ ગોંગ છું।
જ્યારે તમે Claude Code નો ઉપયોગ કરો છો, ખાસ કરીને Plan mode હેઠળ, ત્યારે ઘણીવાર વેબસર્ચ ટૂલ્સની મદદથી વેબપેજ ડેટા કલેક્શન કરવાની જરૂરિયાત હોય છે. પરંતુ ઘણીવાર Fetch error ની પરિસ્થિતિનો સામનો કરવો પડે છે.
આ ખરેખર એક જૂનો પ્રશ્ન છે. Claude Code સાથેના WebFetch અને WebSearch ટૂલ્સનો ઉપયોગ કરીને, માહિતી શોધવા અને સંશોધન કરવા માટે, 80% પરિસ્થિતિઓમાં પૂરતું છે, પરંતુ જ્યારે JS રેન્ડરિંગ પેજ, લોગિનની જરૂરિયાતવાળા સાઇટો, અથવા મોટા પાયે ડેટા કલેક્શનની જરૂરિયાત હોય ત્યારે, બિલ્ટ-ઇન ટૂલ્સ કામ નથી કરતા.
ગયા બે દિવસોમાં, મેં Santiago (@svpino, AI/ML ક્ષેત્રના જાણીતા બ્લોગર) દ્વારા શેર કરેલી એક યોજના જોઈ, તેમણે કહ્યું કે Claude Code નો ઉપયોગ કરીને કોઈપણ વેબસાઇટથી રિયલ ટાઇમમાં રચનાત્મક ડેટા ખેંચી શકાય છે, જે સીધા ઉપયોગ માટેની કોષ્ટકોમાં પાછું આપે છે, તે એક મોટી લખાણની સારાંશ નથી. મેં એકવાર અજમાવ્યું, ખરેખર ખૂબ ઉપયોગી છે.
આજે આપણે Claude Code ને સમગ્ર વેબ ડેટા કલેક્શન ક્ષમતા કેવી રીતે આપવી તે વિશે વાત કરીશું, બે માર્ગો, જરૂર મુજબ પસંદ કરો.
Claude Code ના બિલ્ટ-ઇન નેટવર્ક ટૂલ્સની કમજોરીઓ
Claude Code સાથે બે નેટવર્ક ટૂલ્સ છે: WebSearch શોધ માટે જવાબદાર છે, WebFetch પેજની સામગ્રી કલેક્શન માટે જવાબદાર છે.
WebSearch તુલનાત્મક રીતે સરળ છે, તમે તેને એક શોધ શબ્દ આપો, તે સંબંધિત લિંક્સ અને શીર્ષકો પાછા આપે છે. WebFetch થોડી જટિલ છે, તમે તેને એક URL અને એક પ્રશ્ન આપો, તે પેજની સામગ્રી કલેક્શન કરશે, Turndown લાઇબ્રેરીનો ઉપયોગ કરીને HTML ને Markdown માં બદલી દેશે, 100KB ની અંદર કાપી નાખશે, અને પછી એક હલકા મોડેલ (Haiku) નો ઉપયોગ કરીને તમને સારાંશ આપશે.
સાચી રીતે કહીએ તો, આ બે ટૂલ્સ એક સરળ બ્રાઉઝરનું વર્ઝન છે. ઉપયોગી છે, પરંતુ કેટલાક મોટા ખામી છે.
મહત્વપૂર્ણ સમસ્યા એ છે કે તે JS ને રેન્ડર કરી શકતું નથી. હાલમાં ઘણા વેબસાઇટ્સ SPA (એક પાનું એપ્લિકેશન) છે, સામગ્રી JS દ્વારા ડાયનામિક રીતે લોડ થાય છે. X/Twitter, ઘણા ઇ-કોમર્સ પ્લેટફોર્મ, વિવિધ SaaS બેકએન્ડ, WebFetch વાસ્તવિક સામગ્રીને કલેક્શન કરી શકતું નથી, ફક્ત એક ખાલી ખોળો જ મેળવી શકે છે.
વિરોધી ક્રોલિંગ ક્ષમતા પણ મૂળભૂત રીતે શૂન્ય છે. પ્રોક્સી રાઉન્ડિંગને સપોર્ટ નથી કરે, CAPTCHA વેરિફિકેશનને સંભાળવા માટે સમર્થ નથી, અને જો કોઈ વિરોધી ક્રોલિંગ મિકેનિઝમવાળા વેબસાઇટ પર આવે તો તે ફક્ત બેસી જ જાય છે.
બીજું દુખદાયક મુદ્દો એ છે કે તે ફક્ત લખાણની સારાંશ આપે છે. જો તમે રચનાત્મક ડેટા (જેમ કે ઉત્પાદન કિંમતની કોષ્ટક, વપરાશકર્તા સમીક્ષા યાદી, સ્પર્ધકની કાર્યક્ષમતા તુલના) મેળવવા માંગતા હો, તો WebFetch તે કરી શકતું નથી, તે તમને હંમેશા સંકોચિત લખાણની એક જ ભાગ આપે છે.
આ ત્રણ કમજોરીઓ એકસાથે મળીને Claude Code ને ડેટા કલેક્શનના કાર્યમાં હંમેશા સરળતાની અભાવ બનાવે છે. પરંતુ હવે એક ઉકેલ છે.
પદ્ધતિ 1: Apify એજન્ટ સ્કિલ્સ
Apify એક જૂની ક્લાઉડ ક્રોલર પ્લેટફોર્મ છે, જે ઘણા વર્ષોથી વેબપેજ કલેક્શન અને ઓટોમેશન કરે છે. તાજેતરમાં તેમણે એક એજન્ટ સ્કિલ્સની શ્રેણી રજૂ કરી છે, સરળ ભાષામાં કહીએ તો, એઆઈ કોડિંગ એજન્ટને ડેટા કલેક્શન કેવી રીતે કરવું તે શીખવવા માટે એક સમૂહ પૂર્વ-નિર્મિત સ્કિલ પેક છે.
GitHub રિપોઝિટરીનો સરનામું: https://github.com/apify/agent-skills
આ સ્કિલ્સ Claude Code, Cursor, Codex, Gemini CLI વગેરે મુખ્ય AI પ્રોગ્રામિંગ ટૂલ્સને સપોર્ટ કરે છે. હાલમાં કુલ 12 સ્કિલ્સ છે, જે વ્યાપક કવરેજ ધરાવે છે.
મુખ્ય apify-ultimate-scraper એ એક સર્વગ્રાહી ક્રોલર સ્કિલ છે, જે Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search વગેરે પ્લેટફોર્મના ડેટાને કલેક્શન કરી શકે છે. મહત્વપૂર્ણ છે કે તે રચનાત્મક ડેટા આપે છે, જે સીધા CSV અથવા JSON માં નિકાસ કરી શકાય છે, જેનો ઉપયોગ કરી શકાય છે.
અન્ય સ્કિલ્સમાં સ્પર્ધક વિશ્લેષણ, બ્રાન્ડ પ્રતિષ્ઠા મોનિટરિંગ, ઇ-કોમર્સ ડેટા કલેક્શન, KOL શોધ, પોટેન્શિયલ ગ્રાહક મેળવવા, ટ્રેન્ડ વિશ્લેષણ વગેરેના દૃશ્યોને આવરી લે છે. જો તમે માર્કેટ સંશોધન અથવા વ્યાપાર ડેટા વિશ્લેષણ કરો છો, તો આ એકદમ જાદુઈ છે.
Claude Code માં આ સ્કિલ્સને ઇન્સ્ટોલ કરવું પણ ખૂબ જ સરળ છે. પૂર્વ શરત એ છે કે એક Apify ખાતું હોવું જોઈએ (apify.com પર નોંધણી કરો, મફત મર્યાદા છે), API ટોકન મેળવ્યા પછી તમે કન્ફિગર કરવાનું શરૂ કરી શકો છો.
ઇન્સ્ટોલેશન બે પગલાંમાં વહેંચાય છે. પહેલા માર્કેટ સોર્સ ઉમેરો: /plugin marketplace add https://github.com/apify/agent-skillsતમારે જે કૌશલ્યની જરૂર છે તે ફરીથી ઇન્સ્ટોલ કરો, જેમ કે યુનિવર્સલ સ્ક્રેપર્સ:
/plugin install apify-ultimate-scraper@apify-agent-skills તમે સામાન્ય npx પદ્ધતિનો ઉપયોગ કરીને એક જ વખત તમામ કૌશલ્ય ઇન્સ્ટોલ કરી શકો છો:
npx skills add apify/agent-skills ઇન્સ્ટોલ કર્યા પછી, તમારા API ટોકન સાથે પ્રોજેક્ટની મૂળ ડિરેક્ટરીમાં .env ફાઇલમાં કન્ફિગર કરવાનું ભૂલશો નહીં:
APIFYTOKEN=તમારો ટોકન
ઉદાહરણ તરીકે Youtube વિડિઓ ડેટા ખેંચવું
અહીં એક મુખ્ય બિંદુ છે. Santiago ટ્વીટમાં વારંવાર આને ભારપૂર્વક જણાવે છે કે આ યોજનાનો મુખ્ય લાભ એ છે કે તે બંધારણબદ્ધ ડેટા પાછું આપે છે. ઉદાહરણ તરીકે, જો તમે Claude Code ને કોઈ ઇ-કોમર્સ પ્લેટફોર્મના ઉત્પાદનોની યાદી ખેંચવા માટે કહો છો, તો તમને વ્યવસ્થિત કોષ્ટક (ઉત્પાદન નામ, કિંમત, રેટિંગ, લિંક) મળે છે, જે સીધા વિશ્લેષણ માટે ઉપયોગમાં લઈ શકાય છે, જે WebFetch દ્વારા પાછું આપવામાં આવેલા લખાણના સારાંશ કરતાં વધુ ઉપયોગી છે.
Apify નો બિલિંગ મોડલ પરિણામ પર આધારિત છે, એટલે કે ફક્ત સફળતાપૂર્વક ડેટા ખેંચ્યા જ પૈસા કપાય છે. પરંતુ વ્યક્તિગત વપરાશકર્તાઓ માટે, મફત મર્યાદા ઘણું કામ કરવા માટે પૂરતી છે.
પદ્ધતિ 2: Apify MCP સર્વર
જો તમે વધુ લવચીક નિયંત્રણ ઇચ્છતા હો, અથવા કૌશલ્યમાં તમારા દૃશ્યને આવરી લેવામાં નથી, તો બીજું માર્ગ છે: સીધા MCP (મોડલ સંદર્ભ પ્રોટોકોલ) દ્વારા Apify પ્લેટફોર્મમાં જોડાવું.
Apify MCP સર્વર દ્વારા, Claude Code સીધા Apify સ્ટોરમાં હાજર હજારો સ્ક્રેપર્સ અને સ્વચાલિત સાધનોને કૉલ કરી શકે છે.
GitHub રિપોઝિટરીનો સરનામું: https://github.com/apify/apify-mcp-server
MCP યોજના કન્ફિગર કરવી પણ જટિલ નથી. હોસ્ટેડ રિમોટ સર્વર પદ્ધતિનો ઉપયોગ કરવાની ભલામણ કરવામાં આવે છે, કન્ફિગર કરવું સૌથી સરળ છે. તમારા MCP કન્ફિગરેશન ફાઇલમાં ઉમેરો:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer તમારો APIFYTOKEN" } } } } જો તમે સ્થાનિક રીતે ચલાવવા માટે વધુ પસંદ કરો છો, તો Stdio પદ્ધતિનો ઉપયોગ કરી શકો છો:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "તમારો APIFYTOKEN" } } } }` સેટિંગ કર્યા પછી, Claude Code search-actors (ઉપલબ્ધ સ્ક્રેપર્સ શોધવા), call-actor (સ્ક્રેપિંગ કાર્ય ચલાવવા), get-dataset-items (ખેચાયેલા પરિણામો મેળવવા) જેવા સાધનોને કૉલ કરી શકે છે.
કૌશલ્ય અને MCP પદ્ધતિઓ બંનેને ઇન્સ્ટોલ કરી શકાય છે, બંને એકબીજાને પૂરક બની શકે છે.
જો તમારી જરૂરિયાતો ઉચ્ચ આવર્તન, નિશ્ચિત દૃશ્ય (જેમ કે દરરોજ સ્પર્ધકના ભાવને ખેંચવું) છે, તો કૌશલ્ય વધુ સરળ છે, પૂર્વ-નિર્મિત કાર્યપ્રવાહ બોક્સમાંથી ઉપયોગ માટે તૈયાર છે.
જો તમારી જરૂરિયાતો તાત્કાલિક, દૃશ્યમાં ફેરફાર (આજે સામાજિક મીડિયા ખેંચવું, કાલે સરકારના જાહેર ડેટા ખેંચવું) છે, તો MCP વધુ લવચીક છે, Apify સ્ટોરમાં 15000+ એક્ટર છે જે ક્યારે પણ કૉલ કરી શકાય છે.
બન્ને પદ્ધતિઓ માટેની શરતો સમાન છે: Apify એકાઉન્ટ અને API ટોકનની જરૂર છે, Node.js 20.6+ વાતાવરણની જરૂર છે.
એક સમય બિંદુ પર ખાસ ધ્યાન આપવું જોઈએ: Apify MCP સર્વરનું SSE ટ્રાન્સમિશન પદ્ધતિ 2026ના 1 એપ્રિલે બંધ કરવામાં આવશે, ત્યારે Streamable HTTP પદ્ધતિમાં અપડેટ કરવાની જરૂર પડશે. જો તમે હવે કન્ફિગર કરવાનું શરૂ કરી રહ્યા છો, તો ઉપરની ભલામણ કરેલી કન્ફિગરેશનનો સીધો ઉપયોગ કરો, તે પહેલાથી જ નવી પદ્ધતિ છે.
અન્ય ધ્યાનમાં લેવા જેવી યોજનાઓ
Brave Search MCP એ Anthropic દ્વારા સત્તાવાર રીતે ભલામણ કરેલ શોધ ઉકેલ છે, જે દર મહિને 2000 મફત શોધો આપે છે, જે દૈનિક શોધ માટે પૂરક છે, પરંતુ તે માત્ર શોધ એન્જિન છે, જે રચનાત્મક ડેટા એકત્રિત કરી શકતું નથી।
Playwright MCP વાસ્તવિક બ્રાઉઝર રેન્ડરિંગ કરી શકે છે, જે JavaScript ડાયનામિક પૃષ્ઠો સંભાળવા માટે સક્ષમ છે, જે એવા વેબફેચ માટે યોગ્ય છે જે JS ભારે સાઇટ્સને સંભાળવામાં અસમર્થ છે. પરંતુ તે ઓટોમેશન ઓપરેશન્સ તરફ વધુ ઝુકાવ ધરાવે છે, Apify કરતાં મોટા પાયે ડેટા એકત્રિત કરવામાં સરળ નથી.
Bright Data MCP એ એન્ટરપ્રાઇઝ-સ્તરના માર્ગે ચાલે છે, જે પ્રોક્સી રોટેશન અને CAPTCHA હેન્ડલિંગને સપોર્ટ કરે છે, 2026માં એક મફત પ્લાન (દર મહિને 5000 MCP વિનંતીઓ) રજૂ કર્યો, જે એ દ્રષ્ટિકોણ માટે યોગ્ય છે જ્યાં રેપિંગ મિકેનિઝમને પાર કરવું જરૂરી છે।
આ几个方案各有侧重,可以按需搭配。我现在的组合是内置WebFetch/WebSearch处理日常查资料的需求,Apify Skills处理结构化数据采集。
Claude Code的联网能力,内置工具能覆盖日常80%的场景,但那剩下的20%(JS渲染、反爬、结构化数据)恰恰是很多实际工作中绕不开的。Apify的Agent Skills和MCP Server把这个缺口补上了,配置过程也不复杂,非常推荐有数据采集需求的同学试试。

