231 подписчик

🖥️ Fetch-MCP: как Playwright упрощает массовое извлечение контента с сайтов?

20 марта 202520 мар 2025

3 мин

Если вам когда-либо приходилось быстро извлекать текстовый контент с множества веб-страниц одновременно, вы знаете, что стандартные решения типа curl или axios не всегда справляются с задачей качественно. Ведь современные сайты всё чаще загружают контент с помощью JavaScript, и обычные HTTP-запросы возвращают лишь «голую» HTML-структуру без данных. На помощь приходит интересная разработка, появившаяся совсем недавно на GitHub — Fetch-MCP, сервер на основе Playwright, способный не только корректно обрабатывать страницы с JS-контентом, но и делать это пакетно, с параллельной обработкой. 🚀 Playwright и Fetch-MCP: новый уровень извлечения контента Playwright — это библиотека от Microsoft, предназначенная для автоматизации браузеров. Она позволяет запускать полноценные браузеры в режиме headless (без GUI), что обеспечивает точное выполнение всех JS-скриптов страницы. Именно эту технологию разработчик jae-jae взял за основу своего MCP-сервера. Fetch-MCP добавляет удобную оболочку поверх Pla

На помощь приходит интересная разработка, появившаяся совсем недавно на GitHub — Fetch-MCP, сервер на основе Playwright, способный не только корректно обрабатывать страницы с JS-контентом, но и делать это пакетно, с параллельной обработкой.

🚀 Playwright и Fetch-MCP: новый уровень извлечения контента

Playwright — это библиотека от Microsoft, предназначенная для автоматизации браузеров. Она позволяет запускать полноценные браузеры в режиме headless (без GUI), что обеспечивает точное выполнение всех JS-скриптов страницы. Именно эту технологию разработчик jae-jae взял за основу своего MCP-сервера.

Fetch-MCP добавляет удобную оболочку поверх Playwright, позволяя выполнять запросы либо к одному URL (fetch_url), либо сразу к нескольким (fetch_urls).

🎯 Что умеет Fetch-MCP?

Вот главные преимущества и возможности нового сервера:

🌐 Поддержка JavaScript-контента
Обычные парсеры часто сталкиваются с проблемой пустого HTML, но Fetch-MCP запускает реальный браузер в фоновом режиме, корректно отрисовывая всё, что есть на странице.

⚡ Параллельная загрузка
В режиме fetch_urls Fetch-MCP запускает сразу несколько вкладок браузера одновременно. Это значительно ускоряет массовую обработку URL.

📑 Автоматическое извлечение контента в Markdown
Fetch-MCP умеет автоматически определять и извлекать основной текст со страницы, конвертируя его сразу в Markdown. Это удобно для интеграции с ботами, чатами и системами на базе искусственного интеллекта (например, Claude).

🧩 Гибкость параметров запроса
Каждый вызов Fetch-MCP можно настроить под свои нужды:

⏱️ timeout — максимальное время загрузки страницы.
📥 waitUntil — условие завершения загрузки («load», «domcontentloaded», «networkidle», «commit»).
📌 maxLength — ограничение на длину извлекаемого контента.
🔄 returnHtml — опция, возвращающая HTML вместо Markdown.

👨‍💻 Технические детали реализации

Fetch-MCP написан на TypeScript и компилируется в JavaScript. Сам сервер запускается легко, прямо из командной строки:

npx -y github:jae-jae/fetch-mcp

Для отладки разработчик предусмотрел удобный режим debug, где можно наблюдать за реальным браузером и выявлять проблемы:

npx -y github:jae-jae/fetch-mcp --debug

Такое решение значительно облегчает разработку новых фич и тестирование поведения на сложных страницах.

Кроме того, разработчик сразу предусмотрел интеграцию с популярным приложением Claude Desktop через конфигурационный JSON-файл.

🤔 Зачем нужен такой инструмент и какие перспективы?

Fetch-MCP отлично подходит для интеграции в системы, которым необходимо оперативно получать свежие новости, статьи, аналитические данные, или любую информацию, которая регулярно обновляется на страницах с активным использованием JavaScript.

🛠️ Примеры практического применения:

📚 Боты и нейросети, регулярно сканирующие новости и статьи.
📈 Автоматическое формирование дайджестов и аналитики.
🧪 Тестирование фронтенда и мониторинг изменений сайтов.

Лично от себя отмечу: Fetch-MCP — это пример качественного подхода к извлечению данных в современных условиях, где JavaScript стал нормой, а не исключением. Инструмент выглядит простым, но за этой простотой скрывается большая работа по адаптации Playwright для удобного массового использования.

Будет интересно наблюдать, как проект будет развиваться дальше: поддержка авторизации, динамическое управление куками, расширенные возможности извлечения данных — потенциал огромен.

🔗 Полезные ссылки:

Попробуйте Fetch-MCP и убедитесь сами — массовое извлечение контента с сайтов стало намного проще и удобнее!