Иногда в своей работе я осуществляю веб-скрейпинг с помощью selenium, но этот инструмент работает слишком медленно.
Решение, казалось бы, лежит на поверхности, но в течение последних двух лет я не видел что его кто то использует.
Как вы, возможно, знаете, основная причина, по которой selenium работает медленно, – это парсер. Поэтому первое, что приходит на ум – это изменить парсер в selenium.
Чтобы показать вам, как это работает, я буду использовать selenium с chromedriver, beautifulsoup4 и эту страницу в Википедии, которая содержит таблицу с некоторой информацией о штатах США. Итак, для начала я сделал Python скрипт, который использует только selenium для извлечения данных из таблицы: from datetime import datetime
from selenium import webdriver
def get_states():
url = 'https://en.wikipedia.org/wiki/List_of_states_and_territories_of_the_United_States'
driver = webdriver.Chrome()
driver.get(url)
rows = driver.find_element_by_xpath('//*[@id="mw-content-text"]/div/tab