Claude Code + Apify, बिना रुकावट के पूरे इंटरनेट डेटा को खींचना

3/3/2026
8 min read

Claude Code + Apify, बिना रुकावट के पूरे इंटरनेट डेटा को खींचना

Claude Code + Apifyनमस्ते, मैं लूगोंग हूँ।

जब आप Claude Code का उपयोग कर रहे होते हैं, विशेष रूप से Plan mode में, तो अक्सर आपको WebSearch टूल की मदद से वेब पेज डेटा खींचने की आवश्यकता होती है। लेकिन अक्सर Fetch error की स्थिति का सामना करना पड़ता है।

यह वास्तव में एक पुरानी समस्या है। Claude Code के साथ आने वाले WebFetch और WebSearch टूल का उपयोग करके, जानकारी खोजने और शोध करने के लिए, 80% मामलों में यह पर्याप्त है, लेकिन जब JS रेंडर किए गए पृष्ठों, लॉगिन की आवश्यकता वाले साइटों, या बड़े पैमाने पर डेटा संग्रह की आवश्यकता होती है, तो अंतर्निहित टूल काम नहीं करते।

कुछ दिन पहले, मैंने देखा कि सैंटियागो (@svpino, AI/ML क्षेत्र के प्रसिद्ध ब्लॉगर) ने एक समाधान साझा किया, उन्होंने कहा कि Claude Code का उपयोग करके किसी भी वेबसाइट से वास्तविक समय में संरचित डेटा खींचा जा सकता है, जो सीधे उपयोग करने योग्य तालिका के रूप में लौटता है, न कि एक बड़ी टेक्स्ट सारांश के रूप में। मैंने इसे आजमाया, यह वास्तव में बहुत उपयोगी है।

आज हम बात करेंगे कि कैसे Claude Code में पूरे इंटरनेट डेटा संग्रह की क्षमता जोड़ी जाए, दो रास्ते, आवश्यकता के अनुसार चुनें।

Claude Code के अंतर्निहित नेटवर्किंग टूल की सीमाएँ

Claude Code के पास दो अंतर्निहित नेटवर्किंग टूल हैं: WebSearch जो खोजने के लिए जिम्मेदार है, और WebFetch जो पृष्ठ सामग्री को खींचने के लिए जिम्मेदार है।

WebSearch अपेक्षाकृत सरल है, आप इसे एक खोज शब्द देते हैं, यह संबंधित लिंक और शीर्षक लौटाता है। WebFetch थोड़ा जटिल है, आप इसे एक URL और एक प्रश्न देते हैं, यह पृष्ठ सामग्री को खींचता है, Turndown पुस्तकालय के माध्यम से HTML को Markdown में बदलता है, 100KB के भीतर काटता है, और फिर एक हल्के मॉडल (Haiku) का उपयोग करके आपको संक्षेप में बताता है।

सीधे शब्दों में कहें, ये दोनों टूल एक सरल ब्राउज़र के समान हैं। उपयोगी हैं, लेकिन कुछ गंभीर कमियाँ हैं।

सबसे बड़ी समस्या यह है कि यह JS को रेंडर नहीं कर सकता। अब कई वेबसाइटें SPA (एकल पृष्ठ अनुप्रयोग) हैं, सामग्री JS द्वारा गतिशील रूप से लोड होती है। X/Twitter, कई ई-कॉमर्स प्लेटफार्म, विभिन्न SaaS बैकएंड, WebFetch वास्तविक सामग्री को नहीं खींच सकता, केवल एक खाली खोल प्राप्त कर सकता है।

इसके अलावा, इसके पास बॉट-रोधक क्षमताएँ भी लगभग शून्य हैं। प्रॉक्सी रोटेशन का समर्थन नहीं करता, CAPTCHA वेरिफिकेशन को संभाल नहीं सकता, और यदि बॉट-रोधक तंत्र वाली वेबसाइट का सामना करना पड़ता है, तो केवल हार मान लेता है।

एक और समस्या यह है कि यह केवल टेक्स्ट सारांश लौटाता है। यदि आप संरचित डेटा (जैसे उत्पाद मूल्य सूची, उपयोगकर्ता समीक्षाएँ, प्रतिस्पर्धी विशेषताओं की तुलना) प्राप्त करना चाहते हैं, तो WebFetch यह नहीं कर सकता, यह हमेशा आपको संकुचित टेक्स्ट का एक टुकड़ा देता है।

इन तीन सीमाओं के संयोजन ने Claude Code को डेटा संग्रह के मामले में हमेशा उपयोग में कमी का अनुभव कराया है। लेकिन अब एक समाधान है।

विधि 1: Apify एजेंट कौशल

Apify एक पुराना क्लाउड वेब स्क्रैपिंग प्लेटफॉर्म है, जो कई वर्षों से वेब पेज खींचने और स्वचालन का काम कर रहा है। हाल ही में उन्होंने एक सेट एजेंट कौशल लॉन्च किया है, सरल शब्दों में यह एक पूर्वनिर्मित कौशल पैक का समूह है, जो AI कोडिंग एजेंट को डेटा संग्रह करना सिखाने के लिए विशेष रूप से डिज़ाइन किया गया है।

GitHub रिपॉजिटरी का पता: https://github.com/apify/agent-skills

यह कौशल सेट Claude Code, Cursor, Codex, Gemini CLI जैसे प्रमुख AI प्रोग्रामिंग टूल का समर्थन करता है। वर्तमान में कुल 12 कौशल हैं, जो काफी व्यापक हैं।

मुख्य apify-ultimate-scraper एक सार्वभौमिक स्क्रैपिंग कौशल है, जो Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search जैसे प्लेटफार्मों से डेटा खींच सकता है। महत्वपूर्ण बात यह है कि यह संरचित डेटा लौटाता है, जिसे सीधे CSV या JSON के रूप में निर्यात किया जा सकता है, जिसे तुरंत उपयोग किया जा सकता है।

अन्य कौशल प्रतिस्पर्धी विश्लेषण, ब्रांड प्रतिष्ठा निगरानी, ई-कॉमर्स डेटा संग्रह, KOL खोज, संभावित ग्राहकों की प्राप्ति, प्रवृत्ति विश्लेषण आदि परिदृश्यों को कवर करते हैं। यदि आप बाजार अनुसंधान या व्यावसायिक डेटा विश्लेषण कर रहे हैं, तो यह सेट वास्तव में अद्भुत है।

Claude Code में इस कौशल सेट को स्थापित करना भी बहुत आसान है। शर्त यह है कि आपको एक Apify खाता चाहिए (apify.com पर पंजीकरण करें, मुफ्त क्रेडिट है), API टोकन प्राप्त करने के बाद आप कॉन्फ़िगर करना शुरू कर सकते हैं।

स्थापना दो चरणों में होती है। पहले बाजार स्रोत जोड़ें:/plugin marketplace add https://github.com/apify/agent-skills फिर उन कौशलों को स्थापित करें जिनकी आपको आवश्यकता है, जैसे कि万能爬虫:

/plugin install apify-ultimate-scraper@apify-agent-skills आप सामान्य npx विधि का उपयोग करके सभी कौशल एक बार में स्थापित कर सकते हैं:

npx skills add apify/agent-skills स्थापित करने के बाद, अपने प्रोजेक्ट की मूल निर्देशिका में .env फ़ाइल में अपने API Token को कॉन्फ़िगर करना न भूलें:

APIFYTOKEN=आपकाtoken

उदाहरण के लिए Youtube वीडियो डेटा खींचना

यहां एक महत्वपूर्ण बिंदु है। सैंटियागो ने ट्वीट में बार-बार जोर दिया है कि इस योजना का मुख्य लाभ संरचित डेटा लौटाना है। उदाहरण के लिए, यदि आप Claude Code से किसी ई-कॉमर्स प्लेटफॉर्म की उत्पाद सूची खींचने के लिए कहते हैं, तो आपको एक व्यवस्थित तालिका (उत्पाद का नाम, कीमत, रेटिंग, लिंक) मिलती है, जिसे आप सीधे विश्लेषण के लिए उपयोग कर सकते हैं, जो WebFetch द्वारा लौटाए गए टेक्स्ट सारांश की तुलना में बहुत अधिक उपयोगी है।

Apify का बिलिंग मॉडल परिणामों के अनुसार भुगतान करने का है, अर्थात् केवल तब पैसे काटे जाते हैं जब डेटा सफलतापूर्वक खींचा जाता है। हालांकि व्यक्तिगत उपयोगकर्ताओं के लिए, मुफ्त सीमा काफी चीजें करने के लिए पर्याप्त है।

विधि दो: Apify MCP सर्वर

यदि आप अधिक लचीला नियंत्रण चाहते हैं, या कौशल में आपके परिदृश्य को कवर नहीं किया गया है, तो एक दूसरा रास्ता है: सीधे MCP (Model Context Protocol) के माध्यम से Apify प्लेटफ़ॉर्म से कनेक्ट करें।

Apify MCP सर्वर के माध्यम से, Claude Code सीधे Apify स्टोर में हजारों तैयार किए गए वेब क्रॉलर और स्वचालन उपकरणों को कॉल कर सकता है।

GitHub रिपॉजिटरी का पता:https://github.com/apify/apify-mcp-server

MCP योजना कॉन्फ़िगरेशन भी जटिल नहीं है। प्रबंधित दूरस्थ सर्वर विधि का उपयोग करने की सिफारिश की जाती है, कॉन्फ़िगरेशन सबसे आसान है। अपने MCP कॉन्फ़िगरेशन फ़ाइल में जोड़ें:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer आपकाAPIFYTOKEN" } } } } यदि आप स्थानीय रूप से चलाना पसंद करते हैं, तो आप Stdio विधि का उपयोग कर सकते हैं:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "आपकाAPIFYTOKEN" } } } } कॉन्फ़िगर करने के बाद, Claude Code search-actors (उपलब्ध वेब क्रॉलर खोजें), call-actor (वेब क्रॉलर कार्य निष्पादित करें), get-dataset-items (खींचे गए परिणाम प्राप्त करें) जैसे उपकरणों को कॉल कर सकेगा।

कौशल और MCP विधियों को दोनों स्थापित किया जा सकता है, दोनों एक-दूसरे को पूरक कर सकते हैं।

यदि आपकी आवश्यकता उच्च आवृत्ति की है, निश्चित परिदृश्य (जैसे हर दिन प्रतिस्पर्धी उत्पाद की कीमत खींचना) है, तो कौशल का उपयोग करना अधिक सुविधाजनक है, पूर्वनिर्मित कार्यप्रवाह बॉक्स से बाहर उपयोग के लिए तैयार है।

यदि आपकी आवश्यकता अस्थायी है, परिदृश्य बदलते हैं (आज सोशल मीडिया खींचना, कल सरकारी सार्वजनिक डेटा खींचना) है, तो MCP अधिक लचीला है, Apify स्टोर में 15000+ अभिनेता हैं जिन्हें कभी भी कॉल किया जा सकता है।

दोनों विधियों की पूर्व शर्त समान है: Apify खाता और API Token की आवश्यकता है, Node.js 20.6+ वातावरण की आवश्यकता है।

एक समय बिंदु पर ध्यान देना आवश्यक है: Apify MCP सर्वर का SSE ट्रांसमिशन तरीका 1 अप्रैल 2026 को समाप्त हो जाएगा, तब इसे Streamable HTTP तरीके में अपडेट करने की आवश्यकता होगी। यदि आप अभी कॉन्फ़िगर करना शुरू कर रहे हैं, तो ऊपर सुझाए गए कॉन्फ़िगरेशन का सीधे उपयोग करें, यह पहले से ही नया तरीका है।

अन्य ध्यान देने योग्य योजनाएँBrave Search MCP है जो Anthropic द्वारा आधिकारिक रूप से अनुशंसित खोज समाधान है, हर महीने 2000 मुफ्त खोजें, दैनिक खोज पूरक के लिए उपयुक्त है, लेकिन यह केवल एक खोज इंजन है, संरचित डेटा संग्रह नहीं कर सकता।

Playwright MCP वास्तव में ब्राउज़र रेंडरिंग कर सकता है, यह JavaScript गतिशील पृष्ठों को संभाल सकता है, उन वेबफेच के लिए उपयुक्त है जो JS भारी साइटों को नहीं संभाल सकते। लेकिन यह स्वचालन संचालन की ओर अधिक झुकाव रखता है, बड़े पैमाने पर डेटा संग्रह के लिए Apify की तुलना में उतना सुविधाजनक नहीं है।

Bright Data MCP एक उद्यम स्तर का मार्ग अपनाता है, प्रॉक्सी रोटेशन और CAPTCHA प्रबंधन का समर्थन करता है, 2026 में एक मुफ्त स्तर (हर महीने 5000 MCP अनुरोध) पेश किया गया, जो उन परिदृश्यों के लिए उपयुक्त है जिन्हें बॉट सुरक्षा तंत्र को पार करने की आवश्यकता है।

ये समाधान विभिन्न पहलुओं पर ध्यान केंद्रित करते हैं, इन्हें आवश्यकतानुसार मिलाया जा सकता है। मेरी वर्तमान संयोजन में अंतर्निहित WebFetch/WebSearch दैनिक जानकारी की आवश्यकता को संभालता है, Apify Skills संरचित डेटा संग्रह को संभालता है।

Claude Code की नेटवर्किंग क्षमता, अंतर्निहित उपकरण दैनिक 80% परिदृश्यों को कवर कर सकते हैं, लेकिन वह शेष 20% (JS रेंडरिंग, बॉट सुरक्षा, संरचित डेटा) वास्तव में कई वास्तविक कार्यों में अनिवार्य हैं। Apify के Agent Skills और MCP Server ने इस अंतर को भर दिया है, कॉन्फ़िगरेशन प्रक्रिया भी जटिल नहीं है, डेटा संग्रह की आवश्यकता वाले छात्रों को इसे आजमाने की सिफारिश की जाती है।

Published in Technology

You Might Also Like

📝
Technology

Claude Code Buddy संशोधन गाइड: कैसे प्राप्त करें चमकदार किंवदंती स्तर का पालतू

Claude Code Buddy संशोधन गाइड: कैसे प्राप्त करें चमकदार किंवदंती स्तर का पालतू 2026年4月1日,Anthropic 在 Claude Code 2.1.89 ...

Obsidian ने Defuddle लॉन्च किया, Obsidian Web Clipper को एक नए स्तर पर ले गयाTechnology

Obsidian ने Defuddle लॉन्च किया, Obsidian Web Clipper को एक नए स्तर पर ले गया

Obsidian ने Defuddle लॉन्च किया, Obsidian Web Clipper को एक नए स्तर पर ले गया मैं हमेशा Obsidian के मूल विचार को पसंद क...

OpenAI अचानक घोषणा करता है "तीन-इन-एक": ब्राउज़र + प्रोग्रामिंग + ChatGPT का विलय, आंतरिक रूप से स्वीकार किया कि पिछले वर्ष गलत दिशा में बढ़ाTechnology

OpenAI अचानक घोषणा करता है "तीन-इन-एक": ब्राउज़र + प्रोग्रामिंग + ChatGPT का विलय, आंतरिक रूप से स्वीकार किया कि पिछले वर्ष गलत दिशा में बढ़ा

OpenAI अचानक घोषणा करता है "तीन-इन-एक": ब्राउज़र + प्रोग्रामिंग + ChatGPT का विलय, आंतरिक रूप से स्वीकार किया कि पिछले व...

2026, खुद को 'स्वायत्त' करने के लिए मजबूर नहीं! ये 8 छोटी बातें करें, स्वास्थ्य स्वाभाविक रूप से आएगाHealth

2026, खुद को 'स्वायत्त' करने के लिए मजबूर नहीं! ये 8 छोटी बातें करें, स्वास्थ्य स्वाभाविक रूप से आएगा

2026, खुद को 'स्वायत्त' करने के लिए मजबूर नहीं! ये 8 छोटी बातें करें, स्वास्थ्य स्वाभाविक रूप से आएगा नए साल की शुरुआत,...

वे माताएँ जो वजन कम करने की कोशिश कर रही हैं लेकिन सफल नहीं हो रही हैं, निश्चित रूप से यहाँ फंस गई हैंHealth

वे माताएँ जो वजन कम करने की कोशिश कर रही हैं लेकिन सफल नहीं हो रही हैं, निश्चित रूप से यहाँ फंस गई हैं

वे माताएँ जो वजन कम करने की कोशिश कर रही हैं लेकिन सफल नहीं हो रही हैं, निश्चित रूप से यहाँ फंस गई हैं मार्च का आधा मही...

📝
Technology

AI ब्राउज़र 24 घंटे स्थिर संचालन गाइड

AI ब्राउज़र 24 घंटे स्थिर संचालन गाइड यह ट्यूटोरियल एक स्थिर, दीर्घकालिक AI ब्राउज़र वातावरण स्थापित करने के तरीके को प्...