Claude Code + Apify, बिना रुकावट के पूरे इंटरनेट डेटा को खींचना
Claude Code + Apify, बिना रुकावट के पूरे इंटरनेट डेटा को खींचना
नमस्ते, मैं लूगोंग हूँ।
जब आप Claude Code का उपयोग कर रहे होते हैं, विशेष रूप से Plan mode में, तो अक्सर आपको WebSearch टूल की मदद से वेब पेज डेटा खींचने की आवश्यकता होती है। लेकिन अक्सर Fetch error की स्थिति का सामना करना पड़ता है।
यह वास्तव में एक पुरानी समस्या है। Claude Code के साथ आने वाले WebFetch और WebSearch टूल का उपयोग करके, जानकारी खोजने और शोध करने के लिए, 80% मामलों में यह पर्याप्त है, लेकिन जब JS रेंडर किए गए पृष्ठों, लॉगिन की आवश्यकता वाले साइटों, या बड़े पैमाने पर डेटा संग्रह की आवश्यकता होती है, तो अंतर्निहित टूल काम नहीं करते।
कुछ दिन पहले, मैंने देखा कि सैंटियागो (@svpino, AI/ML क्षेत्र के प्रसिद्ध ब्लॉगर) ने एक समाधान साझा किया, उन्होंने कहा कि Claude Code का उपयोग करके किसी भी वेबसाइट से वास्तविक समय में संरचित डेटा खींचा जा सकता है, जो सीधे उपयोग करने योग्य तालिका के रूप में लौटता है, न कि एक बड़ी टेक्स्ट सारांश के रूप में। मैंने इसे आजमाया, यह वास्तव में बहुत उपयोगी है।
आज हम बात करेंगे कि कैसे Claude Code में पूरे इंटरनेट डेटा संग्रह की क्षमता जोड़ी जाए, दो रास्ते, आवश्यकता के अनुसार चुनें।
Claude Code के अंतर्निहित नेटवर्किंग टूल की सीमाएँ
Claude Code के पास दो अंतर्निहित नेटवर्किंग टूल हैं: WebSearch जो खोजने के लिए जिम्मेदार है, और WebFetch जो पृष्ठ सामग्री को खींचने के लिए जिम्मेदार है।
WebSearch अपेक्षाकृत सरल है, आप इसे एक खोज शब्द देते हैं, यह संबंधित लिंक और शीर्षक लौटाता है। WebFetch थोड़ा जटिल है, आप इसे एक URL और एक प्रश्न देते हैं, यह पृष्ठ सामग्री को खींचता है, Turndown पुस्तकालय के माध्यम से HTML को Markdown में बदलता है, 100KB के भीतर काटता है, और फिर एक हल्के मॉडल (Haiku) का उपयोग करके आपको संक्षेप में बताता है।
सीधे शब्दों में कहें, ये दोनों टूल एक सरल ब्राउज़र के समान हैं। उपयोगी हैं, लेकिन कुछ गंभीर कमियाँ हैं।
सबसे बड़ी समस्या यह है कि यह JS को रेंडर नहीं कर सकता। अब कई वेबसाइटें SPA (एकल पृष्ठ अनुप्रयोग) हैं, सामग्री JS द्वारा गतिशील रूप से लोड होती है। X/Twitter, कई ई-कॉमर्स प्लेटफार्म, विभिन्न SaaS बैकएंड, WebFetch वास्तविक सामग्री को नहीं खींच सकता, केवल एक खाली खोल प्राप्त कर सकता है।
इसके अलावा, इसके पास बॉट-रोधक क्षमताएँ भी लगभग शून्य हैं। प्रॉक्सी रोटेशन का समर्थन नहीं करता, CAPTCHA वेरिफिकेशन को संभाल नहीं सकता, और यदि बॉट-रोधक तंत्र वाली वेबसाइट का सामना करना पड़ता है, तो केवल हार मान लेता है।
एक और समस्या यह है कि यह केवल टेक्स्ट सारांश लौटाता है। यदि आप संरचित डेटा (जैसे उत्पाद मूल्य सूची, उपयोगकर्ता समीक्षाएँ, प्रतिस्पर्धी विशेषताओं की तुलना) प्राप्त करना चाहते हैं, तो WebFetch यह नहीं कर सकता, यह हमेशा आपको संकुचित टेक्स्ट का एक टुकड़ा देता है।
इन तीन सीमाओं के संयोजन ने Claude Code को डेटा संग्रह के मामले में हमेशा उपयोग में कमी का अनुभव कराया है। लेकिन अब एक समाधान है।
विधि 1: Apify एजेंट कौशल
Apify एक पुराना क्लाउड वेब स्क्रैपिंग प्लेटफॉर्म है, जो कई वर्षों से वेब पेज खींचने और स्वचालन का काम कर रहा है। हाल ही में उन्होंने एक सेट एजेंट कौशल लॉन्च किया है, सरल शब्दों में यह एक पूर्वनिर्मित कौशल पैक का समूह है, जो AI कोडिंग एजेंट को डेटा संग्रह करना सिखाने के लिए विशेष रूप से डिज़ाइन किया गया है।
GitHub रिपॉजिटरी का पता: https://github.com/apify/agent-skills
यह कौशल सेट Claude Code, Cursor, Codex, Gemini CLI जैसे प्रमुख AI प्रोग्रामिंग टूल का समर्थन करता है। वर्तमान में कुल 12 कौशल हैं, जो काफी व्यापक हैं।
मुख्य apify-ultimate-scraper एक सार्वभौमिक स्क्रैपिंग कौशल है, जो Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search जैसे प्लेटफार्मों से डेटा खींच सकता है। महत्वपूर्ण बात यह है कि यह संरचित डेटा लौटाता है, जिसे सीधे CSV या JSON के रूप में निर्यात किया जा सकता है, जिसे तुरंत उपयोग किया जा सकता है।
अन्य कौशल प्रतिस्पर्धी विश्लेषण, ब्रांड प्रतिष्ठा निगरानी, ई-कॉमर्स डेटा संग्रह, KOL खोज, संभावित ग्राहकों की प्राप्ति, प्रवृत्ति विश्लेषण आदि परिदृश्यों को कवर करते हैं। यदि आप बाजार अनुसंधान या व्यावसायिक डेटा विश्लेषण कर रहे हैं, तो यह सेट वास्तव में अद्भुत है।
Claude Code में इस कौशल सेट को स्थापित करना भी बहुत आसान है। शर्त यह है कि आपको एक Apify खाता चाहिए (apify.com पर पंजीकरण करें, मुफ्त क्रेडिट है), API टोकन प्राप्त करने के बाद आप कॉन्फ़िगर करना शुरू कर सकते हैं।
स्थापना दो चरणों में होती है। पहले बाजार स्रोत जोड़ें:/plugin marketplace add https://github.com/apify/agent-skills फिर उन कौशलों को स्थापित करें जिनकी आपको आवश्यकता है, जैसे कि万能爬虫:
/plugin install apify-ultimate-scraper@apify-agent-skills आप सामान्य npx विधि का उपयोग करके सभी कौशल एक बार में स्थापित कर सकते हैं:
npx skills add apify/agent-skills स्थापित करने के बाद, अपने प्रोजेक्ट की मूल निर्देशिका में .env फ़ाइल में अपने API Token को कॉन्फ़िगर करना न भूलें:
APIFYTOKEN=आपकाtoken
उदाहरण के लिए Youtube वीडियो डेटा खींचना
यहां एक महत्वपूर्ण बिंदु है। सैंटियागो ने ट्वीट में बार-बार जोर दिया है कि इस योजना का मुख्य लाभ संरचित डेटा लौटाना है। उदाहरण के लिए, यदि आप Claude Code से किसी ई-कॉमर्स प्लेटफॉर्म की उत्पाद सूची खींचने के लिए कहते हैं, तो आपको एक व्यवस्थित तालिका (उत्पाद का नाम, कीमत, रेटिंग, लिंक) मिलती है, जिसे आप सीधे विश्लेषण के लिए उपयोग कर सकते हैं, जो WebFetch द्वारा लौटाए गए टेक्स्ट सारांश की तुलना में बहुत अधिक उपयोगी है।
Apify का बिलिंग मॉडल परिणामों के अनुसार भुगतान करने का है, अर्थात् केवल तब पैसे काटे जाते हैं जब डेटा सफलतापूर्वक खींचा जाता है। हालांकि व्यक्तिगत उपयोगकर्ताओं के लिए, मुफ्त सीमा काफी चीजें करने के लिए पर्याप्त है।
विधि दो: Apify MCP सर्वर
यदि आप अधिक लचीला नियंत्रण चाहते हैं, या कौशल में आपके परिदृश्य को कवर नहीं किया गया है, तो एक दूसरा रास्ता है: सीधे MCP (Model Context Protocol) के माध्यम से Apify प्लेटफ़ॉर्म से कनेक्ट करें।
Apify MCP सर्वर के माध्यम से, Claude Code सीधे Apify स्टोर में हजारों तैयार किए गए वेब क्रॉलर और स्वचालन उपकरणों को कॉल कर सकता है।
GitHub रिपॉजिटरी का पता:https://github.com/apify/apify-mcp-server
MCP योजना कॉन्फ़िगरेशन भी जटिल नहीं है। प्रबंधित दूरस्थ सर्वर विधि का उपयोग करने की सिफारिश की जाती है, कॉन्फ़िगरेशन सबसे आसान है। अपने MCP कॉन्फ़िगरेशन फ़ाइल में जोड़ें:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer आपकाAPIFYTOKEN" } } } } यदि आप स्थानीय रूप से चलाना पसंद करते हैं, तो आप Stdio विधि का उपयोग कर सकते हैं:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "आपकाAPIFYTOKEN" } } } } कॉन्फ़िगर करने के बाद, Claude Code search-actors (उपलब्ध वेब क्रॉलर खोजें), call-actor (वेब क्रॉलर कार्य निष्पादित करें), get-dataset-items (खींचे गए परिणाम प्राप्त करें) जैसे उपकरणों को कॉल कर सकेगा।
कौशल और MCP विधियों को दोनों स्थापित किया जा सकता है, दोनों एक-दूसरे को पूरक कर सकते हैं।
यदि आपकी आवश्यकता उच्च आवृत्ति की है, निश्चित परिदृश्य (जैसे हर दिन प्रतिस्पर्धी उत्पाद की कीमत खींचना) है, तो कौशल का उपयोग करना अधिक सुविधाजनक है, पूर्वनिर्मित कार्यप्रवाह बॉक्स से बाहर उपयोग के लिए तैयार है।
यदि आपकी आवश्यकता अस्थायी है, परिदृश्य बदलते हैं (आज सोशल मीडिया खींचना, कल सरकारी सार्वजनिक डेटा खींचना) है, तो MCP अधिक लचीला है, Apify स्टोर में 15000+ अभिनेता हैं जिन्हें कभी भी कॉल किया जा सकता है।
दोनों विधियों की पूर्व शर्त समान है: Apify खाता और API Token की आवश्यकता है, Node.js 20.6+ वातावरण की आवश्यकता है।
एक समय बिंदु पर ध्यान देना आवश्यक है: Apify MCP सर्वर का SSE ट्रांसमिशन तरीका 1 अप्रैल 2026 को समाप्त हो जाएगा, तब इसे Streamable HTTP तरीके में अपडेट करने की आवश्यकता होगी। यदि आप अभी कॉन्फ़िगर करना शुरू कर रहे हैं, तो ऊपर सुझाए गए कॉन्फ़िगरेशन का सीधे उपयोग करें, यह पहले से ही नया तरीका है।

