Найти в Дзене

Зомби браузер

Уже много лет как в интернете куча мусорных сайтов, которые тупо копируют статьи других сайтов. Более того, есть куча сайтов с данными аккаунтов вк, инсты (запрещена в РФ) и так далее. Есть армии спамеров, которым как-то регают почты и аккаунты. Конечно же, никто не будет заниматься таким вручную - этим занимаются боты парсеры (от англ. parse - разбор) и им подобные. Парсеры сайтов — это программы и скрипты, которые автоматически извлекают информацию со страниц. Они сканируют веб-ресурсы, собирают необходимые данные и конвертируют их в таблицы или базы данных. 1 Общий принцип работы парсеров: Переход на нужный ресурс и копирование его кода. Анализ кода и нахождение необходимой информации. Структуризация и сохранение данных. Источник: www.unisender.com Я уже упоминал об опыте работы в данной сфере в своем Telegram-канале. Отлично, тут ничего нового я вам не открыл, но раз есть много разных ботов-парсеров, то и средств борьбы с ними должно быть много, так? Как минимум это ограничения п
Оглавление

Дикий Интернет

Уже много лет как в интернете куча мусорных сайтов, которые тупо копируют статьи других сайтов. Более того, есть куча сайтов с данными аккаунтов вк, инсты (запрещена в РФ) и так далее. Есть армии спамеров, которым как-то регают почты и аккаунты. Конечно же, никто не будет заниматься таким вручную - этим занимаются боты парсеры (от англ. parse - разбор) и им подобные.

Парсеры сайтов — это программы и скрипты, которые автоматически извлекают информацию со страниц. Они сканируют веб-ресурсы, собирают необходимые данные и конвертируют их в таблицы или базы данных. 1
Общий принцип работы парсеров:
Переход на нужный ресурс и копирование его кода.
Анализ кода и нахождение необходимой информации.
Структуризация и сохранение данных.

Источник: www.unisender.com

Я уже упоминал об опыте работы в данной сфере в своем Telegram-канале.

Очень популярная услуга в Интернете, между прочим!
Очень популярная услуга в Интернете, между прочим!

Не все так просто

Отлично, тут ничего нового я вам не открыл, но раз есть много разных ботов-парсеров, то и средств борьбы с ними должно быть много, так? Как минимум это ограничения по времени и капча, даже всякие сервисы типа CloudFlare и прочие. Тут и куки проверят, и заставят на страницу-шлюз перейти, жуть! И это будет серьезным препятствием для разработчики, ну или замедлит работы над парсером.

CloudFlare выступает для сайта шлюзом, защищающим от ботов и DDOS-аттак
CloudFlare выступает для сайта шлюзом, защищающим от ботов и DDOS-аттак

Все гениальное просто

А что если взять обычный браузер, который ничем себя не выдает, но заставить его парсить данные? Если бы был такой браузер, которым можно было бы управлять... Вот именно так когда-то давно и подумал какой-то умный чел, а браузеры-то нашлись! Оказывается, их использовали тестировщики для написания и выполнения автотестов сайтов!

Автотесты — это программный код, который автоматически проверяет работу приложения. Их задача — заменить рутину, ускорить процесс разработки и снизить риск возникновения ошибок в программном продукте.

Источник: qa-academy.kz

С тех пор штуки вроде Selenium и Playwright стали использовать для парсинга и авторегистраций. Потом идея вылилась в нечто страшное, как например ZennoPoster.

ZennoPoster. Кстати, это комменрческий продукт!
ZennoPoster. Кстати, это комменрческий продукт!