Найти тему
IT Хищник

Обходим защиту сайта для взрослых и парсим данные (За 5 минут) Часть 1

Итак, с чего же начать.... впрочем начну с начала, а именно что такое парсинг и почему с ним сайты пытаются с ним бороться. В первую очередь парсеры представляют собой автомазированое ПО, которое без участия человека может выполнять команды и действия на страницах браузера.

Почему же с ними боряться, если они могут например скачивать информацию с сайта без участия человека ? Ответ прост, право на собственность контентом на том или ином сайте. Любой парсер является "полулегальным ПО" поэтому без разрешения собственника сайта не проводите данные действия. В моем случае все разрешения есть и никаких претензий на действия не будет.

Итак с предисловием мы закончили, можно приступать к самому интересному. В первую очередь нам необходимо ознакомиться с самим сайтом, с которого мы хотим брать данные. В моем случае это будет не без известный Brazzers.

Что же мы видим, от долгожданного контента нас отделяет всего несколько моментов. А именно логин, пароль и, о нет что же это такое, капча ! Но как робот может ее решить и попасть на сайт.

Хороший вопрос мой дорогой читатель, но ответ на него довольно прост. Нам необходимо обраться к сервисам, которые предоставляют мощности своих сервисов для решения капч в автоматическом режиме. Сущесвует очень много подобных систем, но мы будем пользоваться сервисом Anti Captcha

-2

Для работы с ним вам будет необходимо зарегистрироваться и пополнить баланс.

После чего у вам будет необходимо найти в настройках ваш API ключ. Он нам понадобиться для выполнения запроса к сервису. Ключ выглядит следующим образом: 6LcS9rQUAAAAAJbcv0HU0g2UrXLyxxxxxxxxxxxxx

Для работы с API данного сервиса нам также нужно будет скопировать код запроса, найти его можно тут . Помните, очень важно точно понимать с каким типом капчи мы имеем дело. Понять это довольно просто, главное внимательно просмотреть документацию.

-3

Ну что же, после всех манипуляций можем начать писать сам скрипт автоматического решения капчи. Но об этом в следующем выпуске. Подписывайся, чтобы не пропустить новые трюки и фичи.

Послесловие. Некоторые могут спросит: "Почему нельзя просто установить плагин в разворачиваемый браузер и упростить себе жизнь ?".

Отвечаю. Плагин отлично подходит в том случае если мы будем разворачивать барузер на локальной машине. Если же мы используем сервер, то мы должны запускать браузер в специально режиме --headless (О нем я писал в статье)