Найти в Дзене
Парсинг сайтов

Парсинг сайтов

Вытаскиваем данные с сайтов
подборка · 2 материала
7 месяцев назад
Обход капчи. Python + pyautogui
Как-то раз возникла необходимость выкачать с одного сайта информацию про компании из списка ИНН. Но на сайте стоит капча, в которой «зашит» ещё и пример. Что-то типа: «Ответь 95 плюс 5?» Руками перебирать 1000 ИНН конечно же не хочется — это не наш способ. Нужно как-то обойти капчу. Первым делом стал искать модель распознавания. Попробовав парочку, стало понятно, что без дообучения работают они так себе. Если знаете хорошие модельки, прям чтобы огонь и из коробки, напишите пожалуйста в комментариях...
11 месяцев назад
Парсинг сайта на Python. Имитация действий юзера
Допустим вам нужно собрать данные с некоторого сайта, на котором по списку ИНН организаций можно получить официальные данные компаний. Сейчас таких сайтов много и большинство из них предлагают подобные данные бесплатно. Такие как: В задаче ниже будем собирать коды ОКВЭД главного вида деятельности компаний. Если у вас тысячи ИНН в списке, то ручная проверка займёт уйму времени. А делать простые requests-запросы не позволяет сервер, выдавая ошибку HTTP 429: "Too Many Requests". Эта ошибка возвращается,...