Итак, с чего же начать.... впрочем начну с начала, а именно что такое парсинг и почему с ним сайты пытаются с ним бороться. В первую очередь парсеры представляют собой автомазированое ПО, которое без участия человека может выполнять команды и действия на страницах браузера.
Почему же с ними боряться, если они могут например скачивать информацию с сайта без участия человека ? Ответ прост, право на собственность контентом на том или ином сайте. Любой парсер является "полулегальным ПО" поэтому без разрешения собственника сайта не проводите данные действия. В моем случае все разрешения есть и никаких претензий на действия не будет.
Итак с предисловием мы закончили, можно приступать к самому интересному. В первую очередь нам необходимо ознакомиться с самим сайтом, с которого мы хотим брать данные. В моем случае это будет не без известный Brazzers.
Что же мы видим, от долгожданного контента нас отделяет всего несколько моментов. А именно логин, пароль и, о нет что же это такое, капча ! Но как робот может ее решить и попасть на сайт.
Хороший вопрос мой дорогой читатель, но ответ на него довольно прост. Нам необходимо обраться к сервисам, которые предоставляют мощности своих сервисов для решения капч в автоматическом режиме. Сущесвует очень много подобных систем, но мы будем пользоваться сервисом Anti Captcha
Для работы с ним вам будет необходимо зарегистрироваться и пополнить баланс.
После чего у вам будет необходимо найти в настройках ваш API ключ. Он нам понадобиться для выполнения запроса к сервису. Ключ выглядит следующим образом: 6LcS9rQUAAAAAJbcv0HU0g2UrXLyxxxxxxxxxxxxx
Для работы с API данного сервиса нам также нужно будет скопировать код запроса, найти его можно тут . Помните, очень важно точно понимать с каким типом капчи мы имеем дело. Понять это довольно просто, главное внимательно просмотреть документацию.
Ну что же, после всех манипуляций можем начать писать сам скрипт автоматического решения капчи. Но об этом в следующем выпуске. Подписывайся, чтобы не пропустить новые трюки и фичи.
Послесловие. Некоторые могут спросит: "Почему нельзя просто установить плагин в разворачиваемый браузер и упростить себе жизнь ?".
Отвечаю. Плагин отлично подходит в том случае если мы будем разворачивать барузер на локальной машине. Если же мы используем сервер, то мы должны запускать браузер в специально режиме --headless (О нем я писал в статье)