Примерное время прочтения: 6 мин.
Занимаясь скрапингом, таргетом, и вообще осуществляя поиск данных в Интернете, самая большая ошибка, которую Вы можете совершить — вообще не использовать даже бесплатные прокси. Но если Вы решили купить прокси, Вам также стоит знать про ошибки использования прокси, которые допускают многие пользователи. В этой статье мы разберём основные ошибки использования прокси.
РАБОТАТЬ ЧЕРЕЗ БЕСПЛАТНЫЕ ПРОКСИ
Одно дело, если Вы используете бесплатные прокси для личных задач. Например, чтобы играть в онлайн-игру, недоступную в Вашем регионе, бесплатные прокси вполне подойдут. Но если речь идёт о работе, особенно о серьёзной, если Вы используете прокси для скрейпинга Google, то Вам нужно именно купить прокси, а не пытаться сэкономить копейки, рискуя тысячами рублей. По очень многим причинам.
Прежде всего — бесплатные прокси банально небезопасны. Что говорить, если многие бесплатные прокси не позволяют осуществлять HTTPS-соединение! А если и есть — нередко бесплатные прокси собирают информацию о пользователях, в том числе воруют Cookies и даже могут заразить Ваше устройство вирусами.
НЕ ИСПОЛЬЗОВАТЬ ПРОКСИ ПУЛ (proxy pool)
Купить прокси вместо того, чтобы рисковать, используя бесплатные прокси — это хорошо. Но чтобы, к примеру, использовать прокси для краулинга, нужно более серьёзное решение. И это решение — купить прокси пулл. Прокси пул хорош тем, что, используя прокси для таргетинга, параметры геотаргетинга и число одномоментных запросов очень сильно сократятся.
Используя прокси пул, можно разделить запросы на любое доступное Вам количество прокси. Таким образом, если Вы решаете купить прокси пул, Вы повышаете надёжность сеансов, когда используете прокси для скрейпинга.
СОЗДАТЬ ПРОКСИ ПУЛ И НЕ УПРАВЛЯТЬ ИМ
Вы можете купить прокси пул и настроить его, но дальше Вам необходимо управлять им — конечно, если Вы хотите, чтобы Ваши данные оставались качественными. Вот что Вам обязательно нужно делать, чтобы извлекать максимум пользы из своего прокси пула:
- Следите за банами. Отслеживайте их, чтобы решать появляющиеся проблемы и оперативно устранять неполадки
- Дублируйте запросы, если возникают ошибки
- Не забывайте переключаться между юзер-агентами, иначе ботов могут обнаружить
- Правильно настраивайте Ваш прокси пул, когда используете прокси для таргетинга сайтов, находящихся в разных регионах
ПОПАДАТЬСЯ В ЛОВУШКУ HONEYPOT
Honeypot (то есть медовый горшочек) — это один из способов обнаруживать и блокировать попытки пользоваться информационными системами нелегально. Как это выглядит: на сайте есть ссылка, невидимая для человека, но видимая для web-spider. Естественно, при переходе по такой ссылке ловушка захлопывается. Чтобы тонко настроить web-spider, научив его обходить такие ссылки-ловушки, нужны специальные знания и это тема отдельной статьи. Здесь мы лишь скажем, что этот способ сайты используют не так уж и часто, так что, возможно, Вы с таким и не столкнётесь.
ВСЕГДА ПОЛЬЗУЕТЕСЬ ОДИНАКОВЫМ ШАБЛОНОМ КРАУЛИНГА
Важно регулярно менять настройки бота. Если, используя прокси для скрейпинга, Вы всегда используете одинаковый сценарий, его обнаружат, поскольку ни один человек не может совершать действия в Сети НАСТОЛЬКО одинаково.
Сайты знают про прокси для краулинга, скрейпинга, таргетинга — и совершенствуют способы противодействия им. В рамках этой статьи дадим один способ, который ещё долго будет работать. В процессе работы сделайте своими руками некоторое количество случайных движений мышью и щелчков на странице, с которой работаете. Это явным образом идентифицирует Вас как человека.
НЕ ПОЛЬЗУЕТЕСЬ БЕЗГОЛОВЫМ БРАУЗЕРОМ
Всё больше сайтов выдают разное содержимое для разных браузеров. И этот факт предлагает новые возможности для скрейпинга. Но для этого нужен безголовый браузер — то есть такой, который не отображает визуальное содержимое сайта изначально, но позволяет увидеть его из разных 'голов'. Примеры таких браузеров - Google Chrome, Selenium,
PhantomJS. Безголовый браузер позволяет понять разницу, как сайт показывает свой контент для разных браузеров. Но учитывайте, что безголовый браузер использует большое количество ресурсов системы — поэтому, чтобы использовать прокси для скрейпинга через безголовый браузер, нужен мощный компьютер.
ЖАДНОСТЬ
Последнее в списке, но не последнее по значимости — не жадничать. Да, этикет важен и здесь. Дело в том, что, используя прокси для скрейпинга и выполняя большие объёмы запросов, Вы можете переспамить сервер. Лучше от этого не будет никому. Поэтому не забывайте ограничить количество запросов. Это не помешает Вам получить нужные данные, используя прокси для скрейпинга, и сохранит сайт для Ваших новых запросов, а ботов — для новых задач.
Источник статьи: https://airsocks.in/ru/blog/post/7-obshchih-oshibok-pri-ispolzovanii-proksi-dlya-skrejpinga-google