Claude Code + Apify, безпроблемно извличане на данни от интернет
Claude Code + Apify, безпроблемно извличане на данни от интернет
Здравейте, аз съм Лу Гонг.
Когато използвате Claude Code, особено в режим Plan, често възниква нужда от използване на инструмента WebSearch за извличане на данни от уеб страници. Но често се сблъсквате с проблема Fetch error.
Това всъщност е стар проблем. Инструментите WebFetch и WebSearch, вградени в Claude Code, са достатъчни за проучвания и изследвания в 80% от случаите, но когато става въпрос за JS рендерирани страници, сайтове, които изискват вход, или нужда от мащабно извличане на данни, вградените инструменти не могат да се справят.
Преди два дни видях, че Сантяго (@svpino, известен блогър в областта на AI/ML) сподели решение, което позволява на Claude Code да извлича реални структурирани данни от всякакви сайтове, а резултатът е таблица, която може да се използва директно, а не дълъг текстов абстракт. Опитах го и наистина работи много добре.
Днес ще обсъдим как да добавим способността за извличане на данни от интернет в Claude Code, с две опции за избор.
Недостатъци на вградените инструменти за свързване на Claude Code
Claude Code разполага с два вградени инструмента за свързване: WebSearch, който отговаря за търсенето, и WebFetch, който отговаря за извличането на съдържание от страници.
WebSearch е сравнително прост; давате му ключова дума и той връща свързани линкове и заглавия. WebFetch е малко по-сложен; давате му URL и въпрос, и той извлича съдържание от страницата, преобразува HTML в Markdown чрез библиотеката Turndown, съкращава до 100KB и след това използва лек модел (Haiku), за да ви обобщи.
С други думи, тези два инструмента са опростена версия на браузър. Могат да се използват, но имат няколко сериозни недостатъка.
Най-голямата проблема е, че не могат да рендерират JS. В момента много сайтове са SPA (едностранични приложения), а съдържанието се зарежда динамично с JS. X/Twitter, много платформи за електронна търговия, различни SaaS бекенди, WebFetch не може да извлече реалното съдържание, а само получава празна обвивка.
Способността за избягване на ботове също е почти нулева. Не поддържа ротация на проксита, не може да обработва CAPTCHA кодове, и когато се сблъска с уебсайтове с механизми за защита от ботове, просто не може да се справи.
Още един проблем е, че връща само текстови резюмета. Ако искате да получите структурирани данни (например таблица с цени на продукти, списък с отзиви на потребители, сравнение на функции на конкурентни продукти), WebFetch не може да го направи, той винаги ви дава компресирано текстово съдържание.
Тези три недостатъка в комбинация правят Claude Code труден за използване в извличането на данни. Но сега има решение.
Метод 1: Apify Agent Skills
Apify е утвърдена облачна платформа за уеб извличане, която работи в продължение на много години. Наскоро те пуснаха набор от Agent Skills, които в основни линии представляват предварително подготвени пакети от умения, специално предназначени да обучат AI Coding Agent как да извлича данни.
Адрес на GitHub хранилището: https://github.com/apify/agent-skills
Тези Skills поддържат Claude Code, Cursor, Codex, Gemini CLI и други основни AI инструменти за програмиране. В момента има общо 12 умения, които обхващат широк спектър.
Основното apify-ultimate-scraper е универсално умение за извличане, което може да извлича данни от платформи като Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search и др. Ключовото е, че то връща структурирани данни, които могат да бъдат експортирани директно в CSV или JSON, готови за употреба.
Другите умения обхващат анализ на конкуренцията, мониторинг на репутацията на марките, извличане на данни от електронна търговия, откритие на KOL, придобиване на потенциални клиенти, анализ на тенденции и др. Ако правите пазарни проучвания или бизнес анализи, този набор е просто невероятен.
Инсталирането на този набор от Skills в Claude Code също е много удобно. Предпоставка е да имате Apify акаунт (регистрирайте се на apify.com, има безплатен лимит), след като получите API Token, можете да започнете конфигурацията.
Инсталирането се състои от две стъпки. Първо добавете източник на пазара:/plugin marketplace add https://github.com/apify/agent-skills след това инсталирайте необходимите умения, например универсален уеб скрепер:
/plugin install apify-ultimate-scraper@apify-agent-skills можете също да използвате универсалния npx метод, за да инсталирате всички умения наведнъж:
npx skills add apify/agent-skills след инсталацията не забравяйте да конфигурирате вашия API Token в .env файла в корена на проекта:
APIFYTOKEN=вашият токен
Например, за извличане на данни от Youtube видео
Тук ще спомена един ключов момент. Сантиаго многократно подчертава в туитовете си, че основното предимство на този подход е, че връща структурирани данни. Например, ако помолите Claude Code да извлече списък с продукти от определена електронна платформа, получавате подредена таблица (име на продукта, цена, рейтинг, линк), която може да се използва директно за анализ, много по-полезно от текстовия резюме, предоставен от WebFetch.
Моделът на таксуване на Apify е на база резултати, тоест таксуването се извършва само когато данните са успешно извлечени. Въпреки това, за индивидуални потребители, безплатният лимит е достатъчен за много неща.
Метод 2: Apify MCP Server
Ако искате по-гъвкаво управление или ако уменията не покриват вашия сценарий, има втори вариант: директно свързване с платформата Apify чрез MCP (Model Context Protocol).
Чрез Apify MCP Server, Claude Code може директно да извиква хиляди готови уеб скрепери и автоматизационни инструменти от Apify Store.
Адрес на GitHub хранилището: https://github.com/apify/apify-mcp-server
Конфигурацията на MCP решението не е сложна. Препоръчва се да използвате хоствана отдалечена сървърна конфигурация, което е най-лесно. Добавете следното в конфигурационния файл на MCP:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer вашият APIFYTOKEN" } } } } ако предпочитате локално изпълнение, можете да използвате Stdio метода:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "вашият APIFYTOKEN" } } } }` След като конфигурацията е готова, Claude Code ще може да извиква инструменти като search-actors (търсене на налични уеб скрепери), call-actor (изпълнение на задача за уеб скрепер), get-dataset-items (вземане на резултати от извличане) и др.
Уменията и MCP методът могат да бъдат инсталирани и двата, те могат да се допълват взаимно.
Ако вашите нужди са чести и сценарият е фиксиран (например извличане на цените на конкурентите всеки ден), използването на умения е по-лесно, предварително подготвените работни потоци са готови за употреба.
Ако вашите нужди са временно променливи (днес извличане от социални медии, утре извличане на публични данни от правителството), MCP е по-гъвкав, в Apify Store има над 15000 актора, които можете да извиквате по всяко време.
И при двата метода изискванията са същите: необходим е Apify акаунт и API Token, необходима е среда Node.js 20.6+.
Важно е да се обърне внимание на един времеви момент: методът на предаване на Apify MCP Server чрез SSE ще бъде прекратен на 1 април 2026 г., след което ще трябва да се актуализира до Streamable HTTP метод. Ако сега започвате конфигурацията, просто използвайте предложената по-горе конфигурация, тя вече е новият метод.
Други решения, на които си струва да се обърне вниманиеApify извън, има няколко MCP търсачки, които си струва да се запознаете.
Brave Search MCP е официално препоръчаният търсач от Anthropic, предлагащ 2000 безплатни запитвания на месец, подходящ за допълване на ежедневните търсения, но той е само търсачка и не може да извършва структурирано събиране на данни.
Playwright MCP може да извършва истинско рендериране в браузър, способен е да обработва динамични страници на JavaScript, подходящ за сайтове с интензивно JS, които WebFetch не може да обработи. Но той е по-скоро насочен към автоматизирани операции и не е толкова удобен за мащабно събиране на данни, колкото Apify.
Bright Data MCP следва корпоративен подход, поддържа ротация на проксита и обработка на CAPTCHA, през 2026 г. пусна нов безплатен план (5000 MCP запитвания на месец), подходящ за сценарии, които изискват преодоляване на механизми за защита срещу уеб скрейпинг.
Тези решения имат различни акценти и могат да се комбинират според нуждите. Моята текуща комбинация е вграденият WebFetch/WebSearch за обработка на ежедневни нужди от информация, а Apify Skills за структурирано събиране на данни.
Свързаните възможности на Claude Code, вградените инструменти покриват 80% от ежедневните сценарии, но останалите 20% (рендериране на JS, защита срещу уеб скрейпинг, структурирани данни) са точно тези, които не могат да бъдат избегнати в много реални работни ситуации. Agent Skills и MCP Server на Apify запълват тази празнина, а процесът на конфигуриране не е сложен, много препоръчвам на колегите с нужди от събиране на данни да опитат.

