Claude Code + Apify,无障碍抓取全网数据
Claude Code + Apify,无障碍抓取全网数据
مرحبًا بالجميع، أنا لو غونغ.
عندما تستخدم Claude Code، خاصة في وضع التخطيط، غالبًا ما تحتاج إلى استخدام أداة WebSearch لجمع بيانات الويب. لكنك قد تواجه أحيانًا مشكلة Fetch error.
هذه في الحقيقة مشكلة قديمة. باستخدام أدوات WebFetch وWebSearch المدمجة في Claude Code، يمكنك البحث عن المعلومات وإجراء الأبحاث، وفي 80% من الحالات تكون كافية، ولكن عندما تواجه صفحات تم تحميلها بواسطة JS، أو مواقع تتطلب تسجيل الدخول، أو تحتاج إلى جمع بيانات على نطاق واسع، فإن الأدوات المدمجة لا تستطيع التعامل مع ذلك.
قبل يومين، رأيت سانتياغو (@svpino، مدون معروف في مجال AI/ML) يشارك مجموعة من الحلول، حيث قال إنه يمكنك استخدام Claude Code لجلب بيانات هيكلية حية من أي موقع، والنتيجة هي جداول يمكن استخدامها مباشرة، وليست مجرد ملخص نصي طويل. جربتها وكانت فعلاً مفيدة.
اليوم سنتحدث عن كيفية تزويد Claude Code بقدرة جمع بيانات الويب، هناك مساران، اختر ما يناسبك.
عيوب أدوات الاتصال المدمجة في Claude Code
يأتي Claude Code مع أداتين للاتصال: WebSearch مسؤولة عن البحث، وWebFetch مسؤولة عن جمع محتوى الصفحات.
WebSearch بسيطة نسبيًا، تعطيها كلمة بحث، وستعيد لك الروابط والعناوين ذات الصلة. WebFetch أكثر تعقيدًا قليلاً، تعطيها عنوان URL وسؤال، ستقوم بجمع محتوى الصفحة، وتحويل HTML إلى Markdown باستخدام مكتبة Turndown، وتقطع المحتوى إلى أقل من 100KB، ثم تستخدم نموذجًا خفيفًا (Haiku) لمساعدتك في تلخيصه.
ببساطة، هاتان الأداتان هما نسخة مبسطة من المتصفح. يمكن استخدامها، ولكن بها بعض العيوب.
أكبر مشكلة هي عدم القدرة على تحميل JS. الآن العديد من المواقع هي SPA (تطبيقات صفحة واحدة)، حيث يتم تحميل المحتوى ديناميكيًا بواسطة JS. X/Twitter، والعديد من منصات التجارة الإلكترونية، والعديد من واجهات SaaS، لا يمكن لـ WebFetch جمع المحتوى الفعلي، بل يمكنها فقط الحصول على هيكل فارغ.
كما أن القدرة على مكافحة الزحف تقريبًا معدومة. لا تدعم تدوير الوكلاء، ولا يمكنها معالجة CAPTCHA، وعندما تواجه مواقع بها آليات مكافحة الزحف، لا يمكنها فعل شيء.
هناك نقطة مؤلمة أخرى وهي أنها تعيد فقط ملخصات نصية. إذا كنت ترغب في الحصول على بيانات هيكلية (مثل جداول أسعار المنتجات، قوائم تعليقات المستخدمين، مقارنة ميزات المنتجات المنافسة)، فإن WebFetch لا تستطيع القيام بذلك، فهي دائمًا تعطيك نصًا مضغوطًا.
تجمع هذه العيوب الثلاثة معًا، مما يجعل Claude Code يفتقر دائمًا إلى سهولة الاستخدام في جمع البيانات. ولكن الآن هناك حل.
الطريقة الأولى: مهارات Apify Agent
Apify هي منصة زحف سحابية قديمة، تعمل في جمع بيانات الويب والأتمتة منذ سنوات عديدة. مؤخرًا، أطلقوا مجموعة من مهارات الوكيل، ببساطة هي مجموعة من حزم المهارات المعدة مسبقًا، تعلم وكيل البرمجة AI كيفية جمع البيانات.
عنوان مستودع GitHub: https://github.com/apify/agent-skills
تدعم هذه المهارات Claude Code وCursor وCodex وGemini CLI وغيرها من أدوات البرمجة AI الرائجة. حاليًا، هناك 12 مهارة، تغطي مجموعة واسعة.
المهارة الأساسية apify-ultimate-scraper هي مهارة زاحف شاملة، يمكنها جمع بيانات من منصات مثل Instagram وFacebook وTikTok وYouTube وGoogle Maps وGoogle Search. المفتاح هو أنها تعيد بيانات هيكلية، يمكن تصديرها مباشرة إلى CSV أو JSON، ويمكن استخدامها على الفور.
تغطي المهارات الأخرى تحليل المنافسين، ورصد سمعة العلامة التجارية، وجمع بيانات التجارة الإلكترونية، واكتشاف KOL، والحصول على العملاء المحتملين، وتحليل الاتجاهات، وغيرها من السيناريوهات. إذا كنت تقوم بإجراء أبحاث سوق أو تحليل بيانات تجارية، فإن هذه المجموعة مذهلة.
تثبيت هذه المهارات في Claude Code سهل أيضًا. الشرط هو أنك بحاجة إلى حساب Apify (قم بالتسجيل في apify.com، هناك حصة مجانية)، وبعد الحصول على رمز API يمكنك البدء في التكوين.
التثبيت يتكون من خطوتين. أولاً، أضف مصدر السوق:/plugin marketplace add https://github.com/apify/agent-skills ثم قم بتثبيت المهارات التي تحتاجها، مثل الزاحف الشامل:
/plugin install apify-ultimate-scraper@apify-agent-skills يمكنك أيضًا استخدام طريقة npx العامة لتثبيت جميع المهارات دفعة واحدة:
npx skills add apify/agent-skills بعد التثبيت، لا تنسَ إعداد رمز API الخاص بك في ملف .env في جذر المشروع:
APIFYTOKEN=رمزك
على سبيل المثال، لجمع بيانات فيديوهات يوتيوب
هنا نقطة رئيسية. أكد سانتياغو في تغريداته مرارًا وتكرارًا أن الميزة الأساسية لهذه الخطة هي إرجاع البيانات المهيكلة. على سبيل المثال، إذا طلبت من Claude Code جمع قائمة المنتجات من منصة تجارة إلكترونية معينة، ستحصل على جدول منظم (اسم المنتج، السعر، التقييم، الرابط)، يمكن استخدامه مباشرة للتحليل، وهو أكثر فائدة بكثير من الملخص النصي الذي يعود به WebFetch.
نموذج تسعير Apify هو الدفع مقابل النتائج، مما يعني أنه يتم خصم المال فقط عند جمع البيانات بنجاح. ومع ذلك، بالنسبة للمستخدمين الأفراد، فإن الحصة المجانية كافية للقيام بالعديد من الأمور.
الطريقة الثانية: خادم Apify MCP
إذا كنت ترغب في مزيد من التحكم المرن، أو إذا لم تغطي المهارات السيناريو الخاص بك، فهناك طريق ثاني: الاتصال مباشرة بمنصة Apify عبر MCP (بروتوكول سياق النموذج).
من خلال خادم Apify MCP، يمكن لـ Claude Code استدعاء الآلاف من الزواحف والأدوات الآلية الجاهزة في متجر Apify مباشرة.
عنوان مستودع GitHub: https://github.com/apify/apify-mcp-server
تكوين خطة MCP ليس معقدًا أيضًا. يُوصى باستخدام طريقة الخادم البعيد المستضاف، حيث يكون التكوين هو الأسهل. أضف إلى ملف تكوين MCP الخاص بك:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer رمز APIFY الخاص بك" } } } } إذا كنت تفضل التشغيل المحلي، يمكنك استخدام طريقة Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "رمز APIFY الخاص بك" } } } } بعد التكوين، سيكون بإمكان Claude Code استدعاء أدوات مثل search-actors (البحث عن الزواحف المتاحة)، call-actor (تنفيذ مهمة الزاحف)، get-dataset-items (الحصول على نتائج الزحف) وغيرها.
يمكن تثبيت كل من Skills وطريقة MCP، حيث يمكن أن يكمل كل منهما الآخر.
إذا كانت احتياجاتك متكررة، وسيناريو ثابت (مثل جمع أسعار المنافسين مرة واحدة يوميًا)، فإن استخدام Skills سيكون أكثر راحة، حيث أن سير العمل المعد مسبقًا جاهز للاستخدام.
إذا كانت احتياجاتك مؤقتة، وسيناريوهاتك متغيرة (مثل جمع بيانات وسائل التواصل الاجتماعي اليوم، وجمع بيانات الحكومة المفتوحة غدًا)، فإن استخدام MCP سيكون أكثر مرونة، حيث يوجد أكثر من 15000 Actor في متجر Apify يمكن استدعاؤها في أي وقت.
تظل الشروط الأساسية لكلا الطريقتين كما هي: تحتاج إلى حساب Apify ورمز API، وتحتاج إلى بيئة Node.js 20.6+.
يجب أن تكون حذرًا من نقطة زمنية معينة: ستتوقف طريقة نقل SSE لخادم Apify MCP في 1 أبريل 2026، وعندها ستحتاج إلى التحديث إلى طريقة HTTP القابلة للبث. إذا كنت تبدأ الآن في التكوين، يمكنك استخدام التكوين الموصى به أعلاه، فهو بالفعل الطريقة الجديدة.
حلول أخرى تستحق الانتباهBrave Search MCP هو الحل الموصى به رسميًا من Anthropic، حيث يوفر 2000 استعلام مجاني شهريًا، وهو مناسب للاستخدام اليومي كإضافة للبحث، لكنه مجرد محرك بحث ولا يمكنه جمع البيانات الهيكلية.
Playwright MCP يمكنه القيام بتقديم حقيقي للمتصفح، ويستطيع التعامل مع صفحات JavaScript الديناميكية، وهو مناسب لتلك المواقع الثقيلة على JavaScript التي لا يمكن لـ WebFetch التعامل معها. لكنه يميل أكثر نحو العمليات الآلية، وليس من السهل استخدامه لجمع البيانات على نطاق واسع مثل Apify.
Bright Data MCP يتبع مسار المؤسسات، ويدعم تدوير الوكلاء ومعالجة CAPTCHA، وفي عام 2026 أطلقوا مستوى مجاني جديد (5000 طلب MCP شهريًا)، وهو مناسب للسيناريوهات التي تحتاج إلى تجاوز آليات مكافحة الزحف.
تتميز هذه الحلول كل منها بتركيز مختلف، ويمكن دمجها حسب الحاجة. تركيبي الحالي هو استخدام WebFetch/WebSearch المدمج لتلبية احتياجات البحث اليومي، وApify Skills لجمع البيانات الهيكلية.
قدرة Claude Code على الاتصال، والأدوات المدمجة تغطي 80% من السيناريوهات اليومية، لكن الـ 20% المتبقية (تقديم JavaScript، مكافحة الزحف، البيانات الهيكلية) هي بالضبط ما لا يمكن تجنبه في العديد من الأعمال الفعلية. مهارات Agent Skills وMCP Server من Apify تسد هذه الفجوة، وعملية الإعداد ليست معقدة، أوصي بشدة الطلاب الذين لديهم احتياجات لجمع البيانات بتجربتها.

