Найти в Дзене
SСhaos

Парсинг сайтов с помощью selenium python

Статься о парсинге уже есть, и вы можете ознакомиться с ней по ссылке. Но она описывает работу с сайтами, которые не содержат на страницах множество блоков, подгружающихся отдельно, с помощью js скриптов, а отдают весь контент сразу без дополнительных подгрузок. И тут нам на помощь придет selenium. Selenium - это инструмент для автоматизации действий веб-браузера. В большинстве случаев используется для тестирования Web-приложений. Для работы нам потребуется браузер, для примера возьмём Chrome (он должен быть установлен на вашем компьютере). Далее нужно скачать WebDriver для Chrome (подобный драйвер есть и для Firefox). Проверяйте версию Хрома установленного у Вас и версию скачанного WebDriver. Далее запускаем WebDriver, откроется консоль с информацией что ожидается подключение на 9515 порту. Для python должны быть установлены следующие пакеты: pip install lxml pip install selenium Простейший скрипт для манипуляций с сайтами с помощью selenium выглядит так. Скрипт выводит все ссылки на

Статься о парсинге уже есть, и вы можете ознакомиться с ней по ссылке. Но она описывает работу с сайтами, которые не содержат на страницах множество блоков, подгружающихся отдельно, с помощью js скриптов, а отдают весь контент сразу без дополнительных подгрузок.

И тут нам на помощь придет selenium.

Selenium - это инструмент для автоматизации действий веб-браузера. В большинстве случаев используется для тестирования Web-приложений.

Для работы нам потребуется браузер, для примера возьмём Chrome (он должен быть установлен на вашем компьютере). Далее нужно скачать WebDriver для Chrome (подобный драйвер есть и для Firefox). Проверяйте версию Хрома установленного у Вас и версию скачанного WebDriver.

Далее запускаем WebDriver, откроется консоль с информацией что ожидается подключение на 9515 порту.

Для python должны быть установлены следующие пакеты:

pip install lxml
pip install selenium

Простейший скрипт для манипуляций с сайтами с помощью selenium выглядит так.

Скрипт выводит все ссылки на странице, только для примера. А что он будет делать, решать Вам.

В скрипт также включены:

  • блок для возможности авторизации, если вдруг он вам понадобиться;
  • настройка для того чтобы отделить профиль браузера парсера, может понадобиться если при логине с помощью скрипта выдает гуглкапчу. Вы можете ее решить и при следующем логине она уже выдаваться не будет, так как гугл капча будет считать что вход совершает не робот.

З.Ы. А еще мы пишем много полезной информации в блоге Стократ. Добро пожаловать.