Найти в Дзене
Gross QB

grab - фреймворк для парсинга веб-страниц

Grab - это фреймворк для парсинга веб-страниц на Python. Grab предоставляет ряд полезных методов для выполнения сетевых запросов, очистки веб-сайтов и обработки извлеченного содержимого: Spider - это фреймворк для написания парсеров сайтов. Функции: Documentation: https://grablab.org/docs/ GitHub:https://github.com/lorien/grab Russian telegram chat: https://t.me/grablab_ru

Grab - это фреймворк для парсинга веб-страниц на Python. Grab предоставляет ряд полезных методов для выполнения сетевых запросов, очистки веб-сайтов и обработки извлеченного содержимого:

  • Автоматическая поддержка файлов cookie (сессия)
  • HTTP и SOCKS прокси с / без авторизации
  • Поддержка Keep-Alive
  • Поддержка IDN
  • Инструменты для работы с веб-формами
  • Простая загрузка составных файлов
  • Гибкая настройка HTTP-запросов
  • Автоматическое определение кодировки
  • Мощный API для извлечения данных из DOM-дерева HTML-документов с помощью запросов XPATH
  • Асинхронный API для одновременного выполнения тысяч запросов. Эта часть библиотеки называется Spider.
  • Python 3

Spider - это фреймворк для написания парсеров сайтов. Функции:

  • Правила и соглашения для организации логики запроса / синтаксического анализа в отдельных блоках кодов
  • Множественные параллельные сетевые запросы
  • Автоматическая обработка сетевых ошибок (невыполненные задачи возвращаются в очередь задач)
  • Вы можете создавать сетевые запросы и анализировать ответы с помощью Grab API (см. Выше)
  • Поддержка HTTP-прокси
  • Кэширование сети приводит к постоянному хранению
  • Различные бэкэнды для очереди задач (в памяти, redis, mongodb)
  • Инструменты для отладки и сбора статистики
-2
-3

Documentation: https://grablab.org/docs/

GitHub:https://github.com/lorien/grab

Russian telegram chat: https://t.me/grablab_ru