Claude Code + Apify, доступный сбор данных с интернета
Claude Code + Apify, доступный сбор данных с интернета
Здравствуйте, я Лу Гун.
Когда вы используете Claude Code, особенно в режиме Plan, часто возникает необходимость использовать инструмент WebSearch для сбора данных с веб-страниц. Но часто сталкиваются с ошибками Fetch.
Это на самом деле старая проблема. Инструменты WebFetch и WebSearch, встроенные в Claude Code, достаточно хороши для поиска информации и проведения исследований в 80% случаев, но когда дело доходит до страниц с рендерингом JS, сайтов, требующих входа в систему, или необходимости массового сбора данных, встроенные инструменты не справляются.
Несколько дней назад я увидел, как Сантьяго (@svpino, известный блогер в области AI/ML) поделился решением, он сказал, что можно использовать Claude Code для получения структурированных данных в реальном времени с любого сайта, возвращая данные в виде таблицы, а не длинного текстового резюме. Я попробовал, и это действительно хорошо работает.
Сегодня я расскажу, как добавить возможность сбора данных с интернета в Claude Code, два пути на выбор.
Недостатки встроенных сетевых инструментов Claude Code
Claude Code поставляется с двумя сетевыми инструментами: WebSearch отвечает за поиск, а WebFetch отвечает за сбор содержимого страниц.
WebSearch довольно прост: вы даете ему поисковый запрос, и он возвращает соответствующие ссылки и заголовки. WebFetch немного сложнее: вы даете ему URL и вопрос, он собирает содержимое страницы, преобразует HTML в Markdown с помощью библиотеки Turndown, обрезает до 100 КБ и затем использует легкую модель (Haiku) для резюмирования.
Проще говоря, эти два инструмента представляют собой упрощенную версию браузера. Они могут работать, но имеют несколько серьезных недостатков.
Главная проблема заключается в том, что они не могут рендерить JS. В настоящее время множество сайтов являются SPA (одностраничными приложениями), и содержимое загружается динамически с помощью JS. X/Twitter, многие платформы электронной коммерции, различные SaaS-панели — WebFetch не может получить фактическое содержимое, он может только получить пустую оболочку.
Способности противодействия сбору данных также практически отсутствуют. Не поддерживается ротация прокси, не обрабатываются CAPTCHA, и при встрече с сайтами с механизмами противодействия сбору данных, ничего не остается, как сдаться.
Еще одна проблема заключается в том, что возвращается только текстовое резюме. Если вы хотите получить структурированные данные (например, таблицу цен на товары, список отзывов пользователей, сравнение функций конкурентов), WebFetch не может этого сделать, он всегда возвращает сжатый текст.
Эти три недостатка вместе делают Claude Code неудобным для сбора данных. Но теперь есть решение.
Метод 1: Навыки агента Apify
Apify — это устойчивая облачная платформа для сбора данных, работающая в области веб-скрейпинга и автоматизации на протяжении многих лет. Недавно они выпустили набор Навыков агента, проще говоря, это набор предустановленных навыков, специально обучающих AI Coding Agent, как собирать данные.
Адрес репозитория GitHub: https://github.com/apify/agent-skills
Этот набор навыков поддерживает Claude Code, Cursor, Codex, Gemini CLI и другие популярные инструменты AI-программирования. В настоящее время доступно 12 навыков, охватывающих широкий спектр.
Основной навык apify-ultimate-scraper — это универсальный навык для сбора данных, который может собирать данные с платформ Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search и других. Ключевое преимущество в том, что он возвращает структурированные данные, которые можно напрямую экспортировать в CSV или JSON, и использовать сразу.
Другие навыки охватывают такие сценарии, как анализ конкурентов, мониторинг репутации бренда, сбор данных электронной коммерции, обнаружение KOL, привлечение потенциальных клиентов, анализ тенденций и т.д. Если вы занимаетесь рыночными исследованиями или бизнес-аналитикой, этот набор просто волшебен.
Установка этого набора навыков в Claude Code также очень удобна. Предварительно необходимо создать учетную запись Apify (зарегистрируйтесь на apify.com, есть бесплатный лимит), после получения API Token можно начинать настройку.
Установка делится на два этапа. Сначала добавьте источник рынка:/plugin marketplace add https://github.com/apify/agent-skills снова установите необходимые навыки, например, универсальный веб-скребок:
/plugin install apify-ultimate-scraper@apify-agent-skills также можно использовать универсальный способ npx, чтобы установить все навыки сразу:
npx skills add apify/agent-skills после установки не забудьте настроить ваш API Token в файле .env в корневом каталоге проекта:
APIFYTOKEN=ваш токен
Например, для извлечения данных о видео с Youtube
Здесь есть ключевой момент. Сантьяго в твитах неоднократно подчеркивал, что основное преимущество этого решения заключается в возврате структурированных данных. Например, если вы попросите Claude Code извлечь список товаров с определенной торговой платформы, вы получите аккуратно оформленную таблицу (название, цена, рейтинг, ссылка), которую можно сразу использовать для анализа, что гораздо полезнее, чем текстовый обзор, возвращаемый WebFetch.
Модель тарификации Apify основана на оплате за результат, то есть деньги списываются только в случае успешного извлечения данных. Однако для индивидуальных пользователей бесплатного лимита достаточно для выполнения многих задач.
Метод 2: Apify MCP Server
Если вы хотите более гибкого контроля или если в Skills не охвачены ваши сценарии, есть второй путь: подключение к платформе Apify напрямую через MCP (Model Context Protocol).
С помощью Apify MCP Server Claude Code может напрямую вызывать тысячи готовых веб-скребков и автоматизированных инструментов из Apify Store.
Адрес репозитория GitHub: https://github.com/apify/apify-mcp-server
Конфигурация MCP также не сложна. Рекомендуется использовать управляемый удаленный сервер, так как это самый простой способ настройки. Добавьте в ваш файл конфигурации MCP:
{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer ваш APIFYTOKEN" } } } } если вы предпочитаете локальный запуск, вы можете использовать способ Stdio:
{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "ваш APIFYTOKEN" } } } } После настройки Claude Code сможет использовать такие инструменты, как search-actors (поиск доступных веб-скребков), call-actor (выполнение задач веб-скребка), get-dataset-items (получение результатов извлечения) и другие.
Методы Skills и MCP можно установить одновременно, они могут дополнять друг друга.
Если ваши требования частые и сценарий фиксированный (например, ежедневно извлекать цены конкурентов), использование Skills будет более удобным, так как предустановленные рабочие процессы готовы к использованию.
Если ваши требования временные и сценарии меняются (сегодня извлечение данных из социальных сетей, завтра извлечение открытых данных от правительства), использование MCP будет более гибким, в Apify Store доступно более 15000 Actors, которые можно вызывать в любое время.
Обе стратегии имеют одинаковые условия: необходима учетная запись Apify и API Token, требуется среда Node.js 20.6+.
Обязательно обратите внимание на один временной момент: способ передачи SSE для Apify MCP Server будет отменен 1 апреля 2026 года, и в это время потребуется обновление до Streamable HTTP. Если вы начинаете настройку сейчас, просто используйте рекомендованную выше конфигурацию, она уже является новым способом.

