Claude Code + Apify, προσβάσιμη συλλογή δεδομένων από το διαδίκτυο
Claude Code + Apify, προσβάσιμη συλλογή δεδομένων από το διαδίκτυο
Γεια σας, είμαι ο Λου Γκονγκ.
Όταν χρησιμοποιείτε το Claude Code, ειδικά σε λειτουργία Plan mode, συχνά υπάρχει η ανάγκη να χρησιμοποιήσετε το εργαλείο WebSearch για να συλλέξετε δεδομένα από ιστοσελίδες. Ωστόσο, συχνά αντιμετωπίζετε σφάλματα Fetch.
Αυτό είναι στην πραγματικότητα ένα παλιό πρόβλημα. Με τα ενσωματωμένα εργαλεία WebFetch και WebSearch του Claude Code, η αναζήτηση πληροφοριών και η έρευνα είναι επαρκείς σε 80% των περιπτώσεων, αλλά όταν συναντάτε σελίδες που απαιτούν JS απόδοση, ιστότοπους που απαιτούν σύνδεση ή ανάγκες για μαζική συλλογή δεδομένων, τα ενσωματωμένα εργαλεία δεν αντέχουν.
Πριν από δύο ημέρες, είδα τον Σαντιάγο (@svpino, γνωστό blogger στον τομέα AI/ML) να μοιράζεται μια λύση. Είπε ότι μπορείτε να χρησιμοποιήσετε το Claude Code για να τραβήξετε πραγματικά δομημένα δεδομένα από οποιονδήποτε ιστότοπο, επιστρέφοντας πίνακες που μπορείτε να χρησιμοποιήσετε άμεσα, όχι απλώς μια μεγάλη περίληψη κειμένου. Το δοκίμασα και πράγματι είναι πολύ χρήσιμο.
Σήμερα θα μιλήσουμε για το πώς να προσθέσετε τη δυνατότητα συλλογής δεδομένων από το διαδίκτυο στο Claude Code, με δύο διαδρομές, επιλέγοντας ανάλογα με τις ανάγκες σας.
Αδυναμίες των ενσωματωμένων εργαλείων του Claude Code
Το Claude Code διαθέτει δύο ενσωματωμένα εργαλεία: το WebSearch για αναζητήσεις και το WebFetch για τη συλλογή περιεχομένου σελίδων.
Το WebSearch είναι σχετικά απλό, του δίνετε μια λέξη αναζήτησης και επιστρέφει σχετικούς συνδέσμους και τίτλους. Το WebFetch είναι λίγο πιο περίπλοκο, του δίνετε μια διεύθυνση URL και μια ερώτηση, και θα συλλέξει το περιεχόμενο της σελίδας, μετατρέποντας το HTML σε Markdown μέσω της βιβλιοθήκης Turndown, κόβοντας το σε 100KB, και στη συνέχεια χρησιμοποιώντας ένα ελαφρύ μοντέλο (Haiku) για να σας συνοψίσει.
Με απλά λόγια, αυτά τα δύο εργαλεία είναι μια απλή έκδοση ενός προγράμματος περιήγησης. Μπορεί να χρησιμοποιηθούν, αλλά έχουν αρκετές σοβαρές αδυναμίες.
Το μεγαλύτερο πρόβλημα είναι ότι δεν μπορεί να αποδώσει JS. Πολλές ιστοσελίδες είναι SPA (μονοσέλιδες εφαρμογές), και το περιεχόμενο φορτώνεται δυναμικά μέσω JS. Το X/Twitter, πολλές πλατφόρμες ηλεκτρονικού εμπορίου, διάφορα SaaS backend, το WebFetch δεν μπορεί να συλλέξει το πραγματικό περιεχόμενο, μόνο ένα κενό κέλυφος.
Η ικανότητα αποφυγής ανίχνευσης είναι επίσης σχεδόν μηδενική. Δεν υποστηρίζει την εναλλαγή διακομιστών μεσολάβησης, δεν μπορεί να διαχειριστεί CAPTCHA, και όταν συναντά ιστότοπους με μηχανισμούς αποφυγής ανίχνευσης, απλώς αποτυγχάνει.
Ένα άλλο πρόβλημα είναι ότι επιστρέφει μόνο περιλήψεις κειμένου. Αν θέλετε να αποκτήσετε δομημένα δεδομένα (όπως πίνακες τιμών προϊόντων, λίστες κριτικών χρηστών, συγκρίσεις λειτουργιών ανταγωνιστών), το WebFetch δεν μπορεί να το κάνει, σας δίνει πάντα μια συμπιεσμένη παράγραφο κειμένου.
Αυτές οι τρεις αδυναμίες συνδυασμένες καθιστούν το Claude Code λιγότερο φιλικό προς τον χρήστη όσον αφορά τη συλλογή δεδομένων. Αλλά τώρα υπάρχει μια λύση.
Μέθοδος 1: Δεξιότητες Apify Agent
Το Apify είναι μια παλιά πλατφόρμα cloud web scraping, που ασχολείται με τη συλλογή δεδομένων από ιστοσελίδες και την αυτοματοποίηση εδώ και πολλά χρόνια. Πρόσφατα, κυκλοφόρησαν μια σειρά από Δεξιότητες Agent, απλά λέγοντας, είναι μια ομάδα προετοιμασμένων πακέτων δεξιοτήτων που διδάσκουν στον AI Coding Agent πώς να κάνει συλλογή δεδομένων.
Διεύθυνση αποθετηρίου GitHub: https://github.com/apify/agent-skills
Αυτές οι Δεξιότητες υποστηρίζουν τα κύρια εργαλεία προγραμματισμού AI όπως το Claude Code, Cursor, Codex, Gemini CLI κ.λπ. Αυτή τη στιγμή υπάρχουν συνολικά 12 δεξιότητες, καλύπτοντας ένα ευρύ φάσμα.
Η βασική δεξιότητα apify-ultimate-scraper είναι μια καθολική δεξιότητα ανίχνευσης, που μπορεί να συλλέξει δεδομένα από πλατφόρμες όπως Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search κ.λπ. Το κλειδί είναι ότι επιστρέφει δομημένα δεδομένα, τα οποία μπορείτε να εξάγετε απευθείας σε CSV ή JSON, έτοιμα προς χρήση.
Άλλες δεξιότητες καλύπτουν σενάρια όπως ανάλυση ανταγωνιστών, παρακολούθηση φήμης μάρκας, συλλογή δεδομένων ηλεκτρονικού εμπορίου, ανακάλυψη KOL, απόκτηση δυνητικών πελατών, ανάλυση τάσεων κ.λπ. Αν κάνετε έρευνα αγοράς ή ανάλυση επιχειρηματικών δεδομένων, αυτή η σειρά είναι απλώς μαγική.
Η εγκατάσταση αυτής της σειράς Δεξιοτήτων στο Claude Code είναι επίσης πολύ εύκολη. Απαιτείται πρώτα ένας λογαριασμός Apify (εγγραφείτε στο apify.com, υπάρχει δωρεάν ποσό), και αφού αποκτήσετε το API Token μπορείτε να ξεκινήσετε τη ρύθμιση.
Η εγκατάσταση χωρίζεται σε δύο βήματα. Πρώτα προσθέστε την πηγή αγοράς:/plugin marketplace add https://github.com/apify/agent-skills Εγκαταστήστε τις δεξιότητες που χρειάζεστε, όπως ο καθολικός ιστότοπος:
/plugin install apify-ultimate-scraper@apify-agent-skills Μπορείτε επίσης να χρησιμοποιήσετε τη γενική μέθοδο npx για να εγκαταστήσετε όλες τις δεξιότητες ταυτόχρονα:
npx skills add apify/agent-skills Μετά την εγκατάσταση, μην ξεχάσετε να ρυθμίσετε το API Token σας στο αρχείο .env στον ριζικό κατάλογο του έργου:
APIFYTOKEN=τοtokenσας
Για παράδειγμα, συλλογή δεδομένων βίντεο από το Youtube
Εδώ υπάρχει ένα κρίσιμο σημείο. Ο Santiago επαναλαμβάνει σε tweet του ότι το κύριο πλεονέκτημα αυτού του σχεδίου είναι η επιστροφή δομημένων δεδομένων. Για παράδειγμα, αν ζητήσετε από τον Claude Code να συλλέξει τη λίστα προϊόντων από μια πλατφόρμα ηλεκτρονικού εμπορίου, θα λάβετε έναν οργανωμένο πίνακα (όνομα προϊόντος, τιμή, βαθμολογία, σύνδεσμος), που μπορεί να χρησιμοποιηθεί άμεσα για ανάλυση, πολύ πιο χρήσιμο από την περιληπτική κείμενη αναφορά που επιστρέφει το WebFetch.
Το μοντέλο χρέωσης της Apify είναι με βάση τα αποτελέσματα, δηλαδή χρεώνεστε μόνο αν καταφέρετε να συλλέξετε δεδομένα. Ωστόσο, για τους προσωπικούς χρήστες, η δωρεάν ποσόστωση είναι αρκετή για να κάνετε πολλές δουλειές.
Μέθοδος 2: Apify MCP Server
Αν θέλετε πιο ευέλικτο έλεγχο, ή αν οι Δεξιότητες δεν καλύπτουν το σενάριό σας, υπάρχει και δεύτερος δρόμος: να συνδεθείτε απευθείας στην πλατφόρμα Apify μέσω του MCP (Model Context Protocol).
Μέσω του Apify MCP Server, ο Claude Code μπορεί να καλέσει απευθείας χιλιάδες έτοιμους ιστότοπους και εργαλεία αυτοματοποίησης από το Apify Store.
Διεύθυνση αποθετηρίου GitHub: https://github.com/apify/apify-mcp-server
Η ρύθμιση του σχεδίου MCP δεν είναι περίπλοκη. Συνιστάται να χρησιμοποιήσετε μια φιλοξενούμενη απομακρυσμένη διακομιστή, καθώς η ρύθμιση είναι πιο εύκολη. Προσθέστε στο αρχείο ρύθμισης MCP:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer τοAPIFYTOKENσας" } } } } Αν προτιμάτε να τρέχετε τοπικά, μπορείτε να χρησιμοποιήσετε τη μέθοδο Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "τοAPIFYTOKENσας" } } } } Αφού ρυθμιστεί, ο Claude Code θα μπορεί να καλέσει εργαλεία όπως search-actors (αναζήτηση διαθέσιμων ιστότοπων), call-actor (εκτέλεση εργασίας ιστότοπου), get-dataset-items (λήψη αποτελεσμάτων συλλογής) κ.λπ.
Μπορείτε να εγκαταστήσετε και τις δύο μεθόδους Skills και MCP, καθώς μπορούν να αλληλοσυμπληρώνονται.
Αν η ανάγκη σας είναι συχνή και το σενάριο είναι σταθερό (π.χ. συλλογή τιμών ανταγωνιστών μία φορά την ημέρα), οι Δεξιότητες είναι πιο βολικές, με προετοιμασμένες ροές εργασίας έτοιμες προς χρήση.
Αν η ανάγκη σας είναι προσωρινή και το σενάριο μεταβάλλεται (σήμερα συλλογή από κοινωνικά μέσα, αύριο συλλογή δημόσιων δεδομένων από την κυβέρνηση), το MCP είναι πιο ευέλικτο, με περισσότερους από 15000 Actors στο Apify Store που μπορείτε να καλέσετε ανά πάσα στιγμή.
Οι προϋποθέσεις και για τις δύο μεθόδους είναι οι ίδιες: χρειάζεστε λογαριασμό Apify και API Token, και περιβάλλον Node.js 20.6+.
Πρέπει να προσέξετε ένα χρονικό σημείο: η μέθοδος μεταφοράς SSE του Apify MCP Server θα καταργηθεί στις 1 Απριλίου 2026, και θα χρειαστεί να ενημερωθείτε στη μέθοδο Streamable HTTP. Αν αρχίσετε τώρα να ρυθμίζετε, χρησιμοποιήστε απλά τη ρύθμιση που προτείνεται παραπάνω, καθώς είναι ήδη η νέα μέθοδος.
Άλλες προτάσεις που αξίζει να προσέξετεΤο Brave Search MCP είναι η επίσημη προτεινόμενη λύση αναζήτησης από την Anthropic, προσφέρει 2000 δωρεάν αναζητήσεις το μήνα, κατάλληλο για καθημερινές αναζητήσεις, αλλά είναι απλώς μια μηχανή αναζήτησης και δεν μπορεί να συλλέξει δομημένα δεδομένα.
Το Playwright MCP μπορεί να κάνει πραγματική απόδοση προγράμματος περιήγησης, μπορεί να χειριστεί δυναμικές σελίδες JavaScript, κατάλληλο για ιστότοπους με έντονη χρήση JS που δεν μπορούν να διαχειριστούν οι WebFetch. Ωστόσο, είναι πιο προσανατολισμένο σε αυτοματοποιημένες διαδικασίες και δεν είναι τόσο βολικό για μαζική συλλογή δεδομένων όπως το Apify.
Το Bright Data MCP ακολουθεί μια επιχείρηση-επίπεδη προσέγγιση, υποστηρίζει περιστροφή διακομιστών και επεξεργασία CAPTCHA, το 2026 εισήγαγε ένα νέο δωρεάν επίπεδο (5000 αιτήσεις MCP το μήνα), κατάλληλο για σενάρια που απαιτούν παράκαμψη μηχανισμών κατά της συλλογής δεδομένων.
Αυτές οι λύσεις έχουν διαφορετικές εστίασεις και μπορούν να συνδυαστούν ανάλογα με τις ανάγκες. Ο τρέχων συνδυασμός μου είναι το ενσωματωμένο WebFetch/WebSearch για τις καθημερινές ανάγκες αναζήτησης πληροφοριών και το Apify Skills για τη συλλογή δομημένων δεδομένων.
Η δυνατότητα σύνδεσης του Claude Code, τα ενσωματωμένα εργαλεία καλύπτουν το 80% των καθημερινών σεναρίων, αλλά το υπόλοιπο 20% (JS απόδοση, κατά της συλλογής δεδομένων, δομημένα δεδομένα) είναι ακριβώς αυτά που δεν μπορούν να αποφευχθούν σε πολλές πραγματικές εργασίες. Οι δεξιότητες Agent του Apify και ο διακομιστής MCP καλύπτουν αυτό το κενό, η διαδικασία ρύθμισης δεν είναι περίπλοκη, και προτείνω ανεπιφύλακτα στους φοιτητές που έχουν ανάγκες συλλογής δεδομένων να το δοκιμάσουν.

