Claude Code + Apify, Pengambilan Data Tanpa Halangan di Seluruh Web
Claude Code + Apify, Pengambilan Data Tanpa Halangan di Seluruh Web
Hai semua, saya adalah Lu Gong.
Semasa menggunakan Claude Code, terutamanya dalam mod Plan, sering kali terdapat keperluan untuk menggunakan alat WebSearch bagi mengambil data laman web. Namun, sering kali kita menghadapi masalah Fetch error.
Ini sebenarnya adalah masalah lama. Menggunakan alat WebFetch dan WebSearch yang disertakan dalam Claude Code, untuk mencari maklumat dan melakukan penyelidikan, dalam 80% situasi sudah mencukupi, tetapi apabila berhadapan dengan halaman yang dirender dengan JS, laman yang memerlukan log masuk, atau keperluan pengambilan data dalam skala besar, alat terbina dalam tidak dapat bertahan.
Beberapa hari lalu, saya melihat Santiago (@svpino, seorang blogger terkenal dalam bidang AI/ML) berkongsi satu set penyelesaian, dia mengatakan bahawa kita boleh menggunakan Claude Code untuk menarik data terstruktur secara langsung dari mana-mana laman web, dan hasilnya adalah jadual yang boleh digunakan terus, bukan sekadar ringkasan teks yang panjang. Saya mencubanya dan ia memang sangat berguna.
Hari ini, saya akan bercakap tentang cara untuk memberikan Claude Code kemampuan pengambilan data dari seluruh web, dengan dua laluan untuk dipilih mengikut keperluan.
Kelemahan Alat Jaringan Terbina Dalam Claude Code
Claude Code dilengkapi dengan dua alat jaringan: WebSearch bertanggungjawab untuk pencarian, dan WebFetch bertanggungjawab untuk mengambil kandungan halaman.
WebSearch agak mudah, anda memberikannya satu kata kunci pencarian, ia akan mengembalikan pautan dan tajuk yang berkaitan. WebFetch sedikit lebih kompleks, anda memberikannya satu URL dan satu soalan, ia akan mengambil kandungan halaman, menukarkan HTML kepada Markdown melalui perpustakaan Turndown, memendekkan kepada 100KB, dan kemudian menggunakan model ringan (Haiku) untuk membantu anda merumuskan.
Secara ringkas, kedua-dua alat ini adalah versi penyemak imbas yang mudah. Boleh digunakan, tetapi terdapat beberapa kelemahan yang ketara.
Masalah terbesar adalah tidak dapat merender JS. Kini banyak laman web adalah SPA (aplikasi satu halaman), kandungan bergantung kepada pemuatan dinamik JS. X/Twitter, banyak platform e-dagang, pelbagai latar belakang SaaS, WebFetch tidak dapat mengambil kandungan sebenar, hanya dapat mendapatkan satu shell kosong.
Kemampuan anti-scraping juga hampir tidak ada. Tidak menyokong penggiliran proksi, tidak dapat memproses CAPTCHA, apabila berhadapan dengan laman web yang mempunyai mekanisme anti-scraping, ia hanya boleh berhenti.
Satu lagi titik sakit adalah hanya mengembalikan ringkasan teks. Jika anda ingin mendapatkan data terstruktur (seperti senarai harga produk, senarai ulasan pengguna, perbandingan fungsi produk pesaing), WebFetch tidak dapat melakukannya, ia sentiasa memberikan anda satu teks yang telah dipadatkan.
Ketiga-tiga kelemahan ini menjadikan Claude Code sentiasa kekurangan kemudahan penggunaan dalam pengambilan data. Tetapi kini ada penyelesaian.
Kaedah Pertama: Kemahiran Apify Agent
Apify adalah platform pengikis awan yang sudah lama beroperasi, telah melakukan pengambilan laman web dan automasi selama bertahun-tahun. Baru-baru ini mereka melancarkan satu set Kemahiran Agent, secara ringkasnya adalah satu set pakej kemahiran pra-bina, khusus untuk mengajar AI Coding Agent bagaimana melakukan pengambilan data.
Alamat repositori GitHub: https://github.com/apify/agent-skills
Set Kemahiran ini menyokong Claude Code, Cursor, Codex, Gemini CLI dan alat pengaturcaraan AI utama yang lain. Kini terdapat 12 kemahiran, dengan liputan yang sangat luas.
Kemahiran inti apify-ultimate-scraper adalah kemahiran pengikis serba boleh, boleh mengambil data dari platform seperti Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search dan lain-lain. Kuncinya adalah ia mengembalikan data terstruktur, boleh dieksport terus ke CSV atau JSON, dan boleh digunakan terus.
Kemahiran lain meliputi analisis pesaing, pemantauan reputasi jenama, pengambilan data e-dagang, penemuan KOL, pengambilan prospek, analisis tren dan lain-lain. Jika anda melakukan penyelidikan pasaran atau analisis data perniagaan, set ini adalah luar biasa.
Memasang set Kemahiran ini dalam Claude Code juga sangat mudah. Prasyaratnya adalah anda memerlukan akaun Apify (daftar di apify.com, terdapat kuota percuma), setelah mendapatkan Token API, anda boleh mula mengkonfigurasi.
Pemasangan dibahagikan kepada dua langkah. Pertama, tambah sumber pasaran:/plugin marketplace add https://github.com/apify/agent-skills Pasang kemahiran yang anda perlukan, seperti pengikis serba boleh:
/plugin install apify-ultimate-scraper@apify-agent-skills Anda juga boleh menggunakan cara npx yang umum untuk memasang semua kemahiran sekaligus:
npx skills add apify/agent-skills Setelah dipasang, jangan lupa untuk mengkonfigurasi Token API anda dalam fail .env di direktori akar projek:
APIFYTOKEN=token anda
Contohnya, mengikis data video Youtube
Di sini ada satu titik penting. Santiago berulang kali menekankan dalam tweetnya bahawa kelebihan utama penyelesaian ini adalah mengembalikan data yang terstruktur. Contohnya, jika anda meminta Claude Code untuk mengikis senarai produk dari platform e-dagang tertentu, anda akan mendapat jadual yang teratur (nama produk, harga, penilaian, pautan), yang boleh terus digunakan untuk analisis, jauh lebih berguna daripada ringkasan teks yang dikembalikan oleh WebFetch.
Model pengebilan Apify adalah berdasarkan hasil, yang bermaksud bahawa hanya apabila data berjaya dikikis, barulah bayaran akan dikenakan. Namun, bagi pengguna individu, kuota percuma sudah cukup untuk melakukan banyak perkara.
Kaedah Kedua: Apify MCP Server
Jika anda ingin kawalan yang lebih fleksibel, atau jika Kemahiran tidak merangkumi senario anda, terdapat jalan kedua: sambung terus ke platform Apify melalui MCP (Model Context Protocol).
Melalui Apify MCP Server, Claude Code boleh terus memanggil ribuan pengikis dan alat automasi yang sedia ada di Apify Store.
Alamat repositori GitHub: https://github.com/apify/apify-mcp-server
Konfigurasi penyelesaian MCP juga tidak rumit. Disarankan untuk menggunakan cara pelayan jauh yang dihoskan, konfigurasi paling mudah. Tambahkan dalam fail konfigurasi MCP anda:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer token APIFY anda" } } } } Jika anda lebih suka menjalankan secara tempatan, anda boleh menggunakan cara Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "token APIFY anda" } } } } Setelah disiapkan, Claude Code boleh memanggil search-actors (mencari pengikis yang tersedia), call-actor (melaksanakan tugas pengikis), get-dataset-items (mendapatkan hasil pengikisan) dan alat lain.
Kemahiran dan kaedah MCP boleh dipasang kedua-duanya, kedua-duanya saling melengkapi.
Jika keperluan anda adalah frekuensi tinggi, dengan senario tetap (contohnya mengikis harga pesaing sekali sehari), menggunakan Kemahiran lebih mudah, aliran kerja yang telah disediakan boleh digunakan terus.
Jika keperluan anda adalah sementara, dengan senario yang berubah-ubah (hari ini mengikis media sosial, esok mengikis data terbuka kerajaan), menggunakan MCP lebih fleksibel, Apify Store mempunyai lebih daripada 15000 Actor yang boleh dipanggil bila-bila masa.
Kedua-dua cara mempunyai syarat yang sama: memerlukan akaun Apify dan Token API, memerlukan persekitaran Node.js 20.6+.
Perlu diingat satu titik masa: cara pemindahan SSE Apify MCP Server akan dihentikan pada 1 April 2026, dan pada masa itu perlu dikemas kini kepada cara HTTP Streamable. Jika anda mula mengkonfigurasi sekarang, gunakan konfigurasi yang disyorkan di atas, ia sudah merupakan cara baru.
Penyelesaian lain yang patut diberi perhatianBrave Search MCP adalah solusi pencarian yang disarankan secara resmi oleh Anthropic, dengan 2000 kueri percuma sebulan, sesuai untuk pelengkap pencarian harian, tetapi ia hanya enjin pencarian dan tidak dapat melakukan pengumpulan data terstruktur.
Playwright MCP dapat melakukan rendering pelayar yang sebenar, mampu mengendalikan halaman dinamik JavaScript, sesuai untuk laman web yang berat JS yang tidak dapat ditangani oleh WebFetch. Namun, ia lebih cenderung kepada operasi automatik dan tidak semudah Apify untuk pengumpulan data berskala besar.
Bright Data MCP mengambil pendekatan peringkat perusahaan, menyokong penggiliran proksi dan pemprosesan CAPTCHA, pada tahun 2026 melancarkan satu tier percuma (5000 permintaan MCP sebulan), sesuai untuk situasi yang memerlukan untuk mengatasi mekanisme anti-pengikisan.
Setiap solusi ini mempunyai fokus tersendiri dan boleh dipadankan mengikut keperluan. Gabungan saya sekarang adalah menggunakan WebFetch/WebSearch terbina dalam untuk memenuhi keperluan penyelidikan harian, dan Apify Skills untuk pengumpulan data terstruktur.
Keupayaan sambungan Claude Code, alat terbina dalam dapat menampung 80% senario harian, tetapi 20% yang tinggal (rendering JS, anti-pengikisan, data terstruktur) adalah perkara yang tidak dapat dielakkan dalam banyak kerja praktikal. Kemahiran Agen Apify dan Pelayan MCP menampung kekurangan ini, dan proses konfigurasi juga tidak rumit, sangat disyorkan untuk rakan-rakan yang mempunyai keperluan pengumpulan data untuk mencubanya.

