Увидел на одном их каналов Scrapling

4 марта4 мар

3 мин

... Scrapling — это адаптивный фреймворк для веб-скрейпинга, который позволяет выполнять любые задачи от одного запроса до полномасштабного сканирования. Парсер анализирует изменения на веб-сайтах и автоматически перемещает ваши элементы при обновлении страниц. Его средства обхода систем защиты от ботов, таких как Cloudflare Turnstile, встроены в систему. А фреймворк для создания поисковых роботов позволяет масштабировать параллельное многосессионное сканирование с возможностью приостановки и возобновления, а также автоматической сменой прокси и все это в несколько строк кода на Python. Одна библиотека — никаких компромиссов. Сверхбыстрая парсинг-парковка со статистикой в реальном времени и потоковой передачей. Создано веб-скрейперами для веб-скрейперов и обычных пользователей каждый найдет что-то для себя. Spiders — полноценная платформа для сканирования 🕷Spider API в стиле Scrapy: определяйте пауков с помощью start_urls, асинхронных parse обратных вызовов и объектов Request/R

Увидел на одном их каналов Scrapling ...

Scrapling — это адаптивный фреймворк для веб-скрейпинга, который позволяет выполнять любые задачи от одного запроса до полномасштабного сканирования.

Парсер анализирует изменения на веб-сайтах и автоматически перемещает ваши элементы при обновлении страниц. Его средства обхода систем защиты от ботов, таких как Cloudflare Turnstile, встроены в систему. А фреймворк для создания поисковых роботов позволяет масштабировать параллельное многосессионное сканирование с возможностью приостановки и возобновления, а также автоматической сменой прокси и все это в несколько строк кода на Python. Одна библиотека — никаких компромиссов.

Сверхбыстрая парсинг-парковка со статистикой в реальном времени и потоковой передачей. Создано веб-скрейперами для веб-скрейперов и обычных пользователей каждый найдет что-то для себя.

Spiders — полноценная платформа для сканирования

🕷Spider API в стиле Scrapy: определяйте пауков с помощью start_urls, асинхронных parse обратных вызовов и объектов Request/Response .

⚡️Параллельное сканирование: настраиваемые ограничения на одновременное сканирование, регулирование для каждого домена и задержки при загрузке.

🔄Поддержка нескольких сеансов: унифицированный интерфейс для HTTP-запросов и незаметные безголовые браузеры в одном пауке — маршрутизация запросов к разным сеансам по идентификатору.

💾 Пауза и возобновление: сохранение результатов сканирования на основе контрольных точек. Нажмите Ctrl+C, чтобы корректно завершить работу, и перезапустите ее, чтобы продолжить с того места, на котором вы остановились.

📡 Режим потоковой передачи: потоковая передача извлеченных элементов по мере их поступления через async for item in spider.stream() со статистикой в реальном времени — идеально подходит для пользовательского интерфейса, конвейеров и длительных сканирований.

🛡 Обнаружение заблокированных запросов: автоматическое обнаружение и повторная отправка заблокированных запросов с настраиваемой логикой.

📦 Встроенный экспорт: экспортируйте результаты с помощью хуков и собственного пайплайна или встроенного JSON/JSONL с помощью result.items.to_json() / result.items.to_jsonl() соответственно.

Расширенная загрузка веб-сайтов с поддержкой сессий

HTTP-запросы: быстрые и незаметные HTTP-запросы с использованием класса Fetcher . Может имитировать TLS-отпечаток браузера, заголовки и использовать HTTP/3.

Динамическая загрузка: загрузка динамических веб-сайтов с полной автоматизацией браузера с помощью класса DynamicFetcher, поддерживающего Playwright, Chromium и Google Chrome.

Обход защиты от ботов: расширенные возможности скрытия с помощью StealthyFetcher и подмены отпечатков пальцев. Позволяет легко обходить все типы турникетов и межстраничных объявлений Cloudflare с помощью автоматизации.

Управление сессиями: поддержка постоянных сессий с помощью классов FetcherSession, StealthySession, и DynamicSession для управления файлами cookie и состоянием при выполнении запросов.

Ротация прокси: встроенная ProxyRotator функция с циклической или пользовательской стратегией ротации для всех типов сеансов, а также возможность переопределения прокси для каждого запроса.

Блокировка доменов: блокировка запросов к определённых доменам (и их поддоменам) в браузерных загрузчиках.

Поддержка асинхронной загрузки: полная поддержка асинхронной загрузки во всех загрузчиках и специализированных классах асинхронных сессий.

Адаптивный парсинг и интеграция с искусственным интеллектом

🔄Умное отслеживание элементов: перемещение элементов после внесения изменений на сайте с помощью интеллектуальных алгоритмов сопоставления.

🎯 Умная гибкая система выбора: CSS-селекторы, XPath-селекторы, поиск по фильтрам, текстовый поиск, поиск по регулярным выражениям и многое другое.

🔍 Найти похожие элементы: автоматическое определение элементов, похожих на найденные.

🤖 MCP-сервер для использования с искусственным интеллектом: встроенный MCP-сервер для веб-скрейпинга и извлечения данных с помощью искусственного интеллекта. MCP-сервер обладает мощными настраиваемыми функциями, которые позволяют использовать