Найти в Дзене

Веб-скрапинг: Забудьте о блокировках! Обзор Scrapling — парсера, который «притворяется» человеком

Сидишь ты такой, значит, в интернете, листаешь что-то скучное или, наоборот, очень интересное, и тут в голову приходит мысль. Не о том, что пора бы уже наконец-то полить цветы или вынести мусор, нет. Мысль такая, из разряда: «А вот было бы здорово собрать все цены на… ну, пусть будут зимние шины, со всех этих пятидесяти магазинов сразу, в одну табличку». Или там: «Надо бы посмотреть, какие заголовки про политику были ровно три года назад, чисто для сравнения». И вот тут начинается вся эта история с веб-скрапингом, или, как у нас говорят, парсингом. Для обычного человека это звучит как что-то из фильмов про хакеров, которые сидят в тёмной комнате, пьют энергетики и ломают Пентагон. На самом деле, это просто автоматическое копирование информации с сайтов. И если раньше для этого надо было быть чуть ли не доктором наук по Python, то сейчас ребята делают такие инструменты, что просто диву даёшься. Вот, например, вылез откуда-то этот Scrapling. Слушайте, это жесть. В смысле, в хорошем смы

Scrapling
Scrapling

Сидишь ты такой, значит, в интернете, листаешь что-то скучное или, наоборот, очень интересное, и тут в голову приходит мысль. Не о том, что пора бы уже наконец-то полить цветы или вынести мусор, нет. Мысль такая, из разряда: «А вот было бы здорово собрать все цены на… ну, пусть будут зимние шины, со всех этих пятидесяти магазинов сразу, в одну табличку». Или там: «Надо бы посмотреть, какие заголовки про политику были ровно три года назад, чисто для сравнения». И вот тут начинается вся эта история с веб-скрапингом, или, как у нас говорят, парсингом.

Для обычного человека это звучит как что-то из фильмов про хакеров, которые сидят в тёмной комнате, пьют энергетики и ломают Пентагон. На самом деле, это просто автоматическое копирование информации с сайтов. И если раньше для этого надо было быть чуть ли не доктором наук по Python, то сейчас ребята делают такие инструменты, что просто диву даёшься. Вот, например, вылез откуда-то этот Scrapling.

Слушайте, это жесть. В смысле, в хорошем смысле. Это, по сути, такая волшебная палочка для всех, кто хоть раз пытался заставить компьютер собрать данные с сайта, а сайт ему в ответ: «Не положено!» Потому что эти сайты, они же не дураки. Как только видят, что к ним ломится не человек, а какой-то робот, который за секунду листает сто страниц, они сразу ставят шлагбаум. Типа, покажи, что ты не бот. Тут тебе и капчи эти дурацкие, и вообще — анти-бот-системы, которые по походке определяют, что ты не живой.

А Scrapling, он как будто невидимка. Разработчики там пишут про какой-то «незаметный» режим, про подмену отпечатков браузера, вот это всё. Короче, он заходит на сайт, прикидывается валенком, то есть обычным человеком, который просто очень быстро кликает, и сайт ему верит. Это как будто ты пришёл на дискотеку по чужому паспорту, но тебя всё равно пустили, потому что выглядишь ты уверенно.

Но самое смешное и одновременно крутое там не в этом. Самое крутое, это они называют «адаптивный скрапинг». Вот представьте: вы, значит, неделю потратили, чтобы настроить свою программу-сборщик, указали ей: «Вот тут, видишь, название товара, оно всегда в блоке с классом .product-title-big-fat, бери его». Проходит месяц, айтишники магазина получают зарплату и решают «улучшить» сайт. Они меняют этот класс на .new-product-header-v2. И что происходит с вашей программой? Правильно, она ломается, бьётся в истерике и перестаёт что-либо видеть. Слёзы, мат, всё заново.

А этот Scrapling, он, похоже, с искусственным интеллектом дружит. Он запоминает, что вот тот элемент, который вы просили, он раньше выглядел так-то и находился там-то. И когда ему подсовывают новый дизайн, он такой: «Ага, я тебя узнал! Ты же просто переоделся!» И сам находит нужный элемент, даже если его чуть-чуть переставили или назвали по-другому. Это как будто тебе друг звонит с нового номера, а ты по голосу сразу понимаешь, что это он. Нереально удобно, просто вот слов нет. Экономия нервов на годы вперёд.

Там, конечно, есть и всякие профессиональные штуки. Мол, он очень быстрый, прямо молниеносно быстрый, и память не жрёт. Ну, это уже для тех, кто эти тысячи страниц парсит каждый день. Для нас, простых смертных, главное, что оно работает и не заставляет каждые выходные переписывать код, потому что какой-то дизайнер решил поменять шрифт или цвет кнопки. В общем, если вам когда-нибудь придёт в голову идея собрать кучу информации из интернета, причём так, чтобы вас не поймали и чтобы ваш скрипт не умер после первого же обновления сайта, то, кажется, стоит посмотреть в сторону вот этой штуки.

Ну и, конечно, как без терминала. Там даже есть режим, когда ты просто пишешь команду в командной строке, не открывая редактор, и он тебе сразу выдаёт результат. Это уже, конечно, для продвинутых, но приятно, что они обо всех подумали.

В итоге, это не просто очередная программа для копирования данных. Это, если честно, такой умный шпион, который прикидывается человеком, запоминает, где что лежит, и потом притаскивает тебе все нужные данные, даже если в тылу врага сменили караул и пароли. Однозначно что-то новое в этой сфере.

Ссылка на источник

🔔 Если статья была полезной, жмите на колокольчик на главной странице канала, чтобы быть в курсе новых публикаций, и подпишитесь, если ещё не подписаны! 📰