Claude Code + Apify, доступный сбор данных с интернета

Здравствуйте, я Лу Гун.

Когда вы используете Claude Code, особенно в режиме Plan, часто возникает необходимость использовать инструмент WebSearch для сбора данных с веб-страниц. Но часто сталкиваются с ошибками Fetch.

Это на самом деле старая проблема. Инструменты WebFetch и WebSearch, встроенные в Claude Code, достаточно хороши для поиска информации и проведения исследований в 80% случаев, но когда дело доходит до страниц с рендерингом JS, сайтов, требующих входа в систему, или необходимости массового сбора данных, встроенные инструменты не справляются.

Несколько дней назад я увидел, как Сантьяго (@svpino, известный блогер в области AI/ML) поделился решением, он сказал, что можно использовать Claude Code для получения структурированных данных в реальном времени с любого сайта, возвращая данные в виде таблицы, а не длинного текстового резюме. Я попробовал, и это действительно хорошо работает.

Сегодня я расскажу, как добавить возможность сбора данных с интернета в Claude Code, два пути на выбор.

Недостатки встроенных сетевых инструментов Claude Code

Claude Code поставляется с двумя сетевыми инструментами: WebSearch отвечает за поиск, а WebFetch отвечает за сбор содержимого страниц.

WebSearch довольно прост: вы даете ему поисковый запрос, и он возвращает соответствующие ссылки и заголовки. WebFetch немного сложнее: вы даете ему URL и вопрос, он собирает содержимое страницы, преобразует HTML в Markdown с помощью библиотеки Turndown, обрезает до 100 КБ и затем использует легкую модель (Haiku) для резюмирования.

Проще говоря, эти два инструмента представляют собой упрощенную версию браузера. Они могут работать, но имеют несколько серьезных недостатков.

Главная проблема заключается в том, что они не могут рендерить JS. В настоящее время множество сайтов являются SPA (одностраничными приложениями), и содержимое загружается динамически с помощью JS. X/Twitter, многие платформы электронной коммерции, различные SaaS-панели — WebFetch не может получить фактическое содержимое, он может только получить пустую оболочку.

Способности противодействия сбору данных также практически отсутствуют. Не поддерживается ротация прокси, не обрабатываются CAPTCHA, и при встрече с сайтами с механизмами противодействия сбору данных, ничего не остается, как сдаться.

Еще одна проблема заключается в том, что возвращается только текстовое резюме. Если вы хотите получить структурированные данные (например, таблицу цен на товары, список отзывов пользователей, сравнение функций конкурентов), WebFetch не может этого сделать, он всегда возвращает сжатый текст.

Эти три недостатка вместе делают Claude Code неудобным для сбора данных. Но теперь есть решение.

Метод 1: Навыки агента Apify

Apify — это устойчивая облачная платформа для сбора данных, работающая в области веб-скрейпинга и автоматизации на протяжении многих лет. Недавно они выпустили набор Навыков агента, проще говоря, это набор предустановленных навыков, специально обучающих AI Coding Agent, как собирать данные.

Адрес репозитория GitHub: https://github.com/apify/agent-skills

Этот набор навыков поддерживает Claude Code, Cursor, Codex, Gemini CLI и другие популярные инструменты AI-программирования. В настоящее время доступно 12 навыков, охватывающих широкий спектр.

Основной навык apify-ultimate-scraper — это универсальный навык для сбора данных, который может собирать данные с платформ Instagram, Facebook, TikTok, YouTube, Google Maps, Google Search и других. Ключевое преимущество в том, что он возвращает структурированные данные, которые можно напрямую экспортировать в CSV или JSON, и использовать сразу.

Другие навыки охватывают такие сценарии, как анализ конкурентов, мониторинг репутации бренда, сбор данных электронной коммерции, обнаружение KOL, привлечение потенциальных клиентов, анализ тенденций и т.д. Если вы занимаетесь рыночными исследованиями или бизнес-аналитикой, этот набор просто волшебен.

Установка этого набора навыков в Claude Code также очень удобна. Предварительно необходимо создать учетную запись Apify (зарегистрируйтесь на apify.com, есть бесплатный лимит), после получения API Token можно начинать настройку.

Установка делится на два этапа. Сначала добавьте источник рынка:/plugin marketplace add https://github.com/apify/agent-skills снова установите необходимые навыки, например, универсальный веб-скребок:

/plugin install apify-ultimate-scraper@apify-agent-skills также можно использовать универсальный способ npx, чтобы установить все навыки сразу:

npx skills add apify/agent-skills после установки не забудьте настроить ваш API Token в файле .env в корневом каталоге проекта:

APIFYTOKEN=ваш токен

Например, для извлечения данных о видео с Youtube

Здесь есть ключевой момент. Сантьяго в твитах неоднократно подчеркивал, что основное преимущество этого решения заключается в возврате структурированных данных. Например, если вы попросите Claude Code извлечь список товаров с определенной торговой платформы, вы получите аккуратно оформленную таблицу (название, цена, рейтинг, ссылка), которую можно сразу использовать для анализа, что гораздо полезнее, чем текстовый обзор, возвращаемый WebFetch.

Модель тарификации Apify основана на оплате за результат, то есть деньги списываются только в случае успешного извлечения данных. Однако для индивидуальных пользователей бесплатного лимита достаточно для выполнения многих задач.

Метод 2: Apify MCP Server

Если вы хотите более гибкого контроля или если в Skills не охвачены ваши сценарии, есть второй путь: подключение к платформе Apify напрямую через MCP (Model Context Protocol).

С помощью Apify MCP Server Claude Code может напрямую вызывать тысячи готовых веб-скребков и автоматизированных инструментов из Apify Store.

Адрес репозитория GitHub: https://github.com/apify/apify-mcp-server

Конфигурация MCP также не сложна. Рекомендуется использовать управляемый удаленный сервер, так как это самый простой способ настройки. Добавьте в ваш файл конфигурации MCP:

{ "mcpServers": { "apify": { "url": "https://mcp.apify.com", "headers": { "Authorization": "Bearer ваш APIFYTOKEN" } } } } если вы предпочитаете локальный запуск, вы можете использовать способ Stdio:

{ "mcpServers": { "apify-mcp": { "command": "npx", "args": ["-y", "@apify/actors-mcp-server"], "env": { "APIFYTOKEN": "ваш APIFYTOKEN" } } } } После настройки Claude Code сможет использовать такие инструменты, как search-actors (поиск доступных веб-скребков), call-actor (выполнение задач веб-скребка), get-dataset-items (получение результатов извлечения) и другие.

Методы Skills и MCP можно установить одновременно, они могут дополнять друг друга.

Если ваши требования частые и сценарий фиксированный (например, ежедневно извлекать цены конкурентов), использование Skills будет более удобным, так как предустановленные рабочие процессы готовы к использованию.

Если ваши требования временные и сценарии меняются (сегодня извлечение данных из социальных сетей, завтра извлечение открытых данных от правительства), использование MCP будет более гибким, в Apify Store доступно более 15000 Actors, которые можно вызывать в любое время.

Обе стратегии имеют одинаковые условия: необходима учетная запись Apify и API Token, требуется среда Node.js 20.6+.

Обязательно обратите внимание на один временной момент: способ передачи SSE для Apify MCP Server будет отменен 1 апреля 2026 года, и в это время потребуется обновление до Streamable HTTP. Если вы начинаете настройку сейчас, просто используйте рекомендованную выше конфигурацию, она уже является новым способом.

Другие решения, на которые стоит обратить вниманиеMCP Brave Search является официально рекомендованным решением для поиска от Anthropic, предоставляет 2000 бесплатных запросов в месяц, подходит для повседневного поиска, но это всего лишь поисковая система, не может выполнять сбор структурированных данных.

MCP Playwright может выполнять настоящую рендеринг в браузере, способен обрабатывать динамические страницы на JavaScript, подходит для тех сайтов с тяжелым использованием JS, с которыми WebFetch не справляется. Но он больше ориентирован на автоматизацию, не так удобен для масштабного сбора данных, как Apify.

MCP Bright Data ориентирован на корпоративный сегмент, поддерживает ротацию прокси и обработку CAPTCHA, в 2026 году был запущен новый бесплатный тариф (5000 запросов MCP в месяц), подходит для сценариев, где необходимо обойти механизмы защиты от парсинга.

Эти решения имеют свои особенности и могут быть комбинированы по мере необходимости. Моя текущая комбинация включает встроенные WebFetch/WebSearch для повседневного поиска информации и Apify Skills для сбора структурированных данных.

Сетевые возможности Claude Code и встроенные инструменты покрывают 80% повседневных сценариев, но оставшиеся 20% (рендеринг JS, защита от парсинга, структурированные данные) как раз те, которые невозможно обойти в большинстве реальных задач. Навыки агента Apify и сервер MCP закрывают этот пробел, процесс настройки также несложен, настоятельно рекомендую студентам с потребностями в сборе данных попробовать.

Claude Code + Apify, доступный сбор данных с интернета

Claude Code + Apify, доступный сбор данных с интернета

Недостатки встроенных сетевых инструментов Claude Code

Метод 1: Навыки агента Apify

Например, для извлечения данных о видео с Youtube

Метод 2: Apify MCP Server

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian выпустил Defuddle, подняв Obsidian Web Clipper на новый уровень

OpenAI внезапно объявила о "тройном объединении": браузер + программирование + ChatGPT, внутреннее признание ошибок прошлого года

2026, больше не заставляйте себя "дисциплинироваться"! Сделайте эти 8 простых вещей, и здоровье придет само собой

Тем мамам, которые стараются похудеть, но не могут, определенно стоит задуматься здесь

AI Browser 24小时稳定运行指南