Найти в Дзене
Новое электричество

Как мы пилили Скрэпера

Здесь мы рассказали о том, зачем нужен Скрэпер. Теперь немного поговорим о нашем собственном опыте его создания. Сначала о том, почему мы решили сделать его сами. На рынке действительно есть немало скрэперов, готовых к использованию, некоторые из них бесплатные, некоторые платные. Для многих задач пользоваться ими вполне можно. Но для нашего сервиса сбор качественных данных для последующей обработки Искусственным интеллектом является критически важным элементом. И ни один из существующих сервисов не убедил нас, что он достаточно хорош, чтобы мы могли вдолгую на него рассчитывать. А когда делаешь сам, всё в твоих руках! Можно создать программу, максимально заточенную под решение определённых задач. Ключевым элементом нашего Скрэпера стала прекрасная библиотека на Питоне Beautiful Soup. О ней много чего написано в разных местах, поэтому пока не будем подробно описывать, как она устроена. Просто скажем — она правда хороша! С помощью Beautiful Soup мы создали алгоритм, который перебира
Photo by Maxime Agnelli on Unsplash
Photo by Maxime Agnelli on Unsplash

Здесь мы рассказали о том, зачем нужен Скрэпер. Теперь немного поговорим о нашем собственном опыте его создания.

Сначала о том, почему мы решили сделать его сами. На рынке действительно есть немало скрэперов, готовых к использованию, некоторые из них бесплатные, некоторые платные. Для многих задач пользоваться ими вполне можно.

Но для нашего сервиса сбор качественных данных для последующей обработки Искусственным интеллектом является критически важным элементом. И ни один из существующих сервисов не убедил нас, что он достаточно хорош, чтобы мы могли вдолгую на него рассчитывать. А когда делаешь сам, всё в твоих руках! Можно создать программу, максимально заточенную под решение определённых задач.

Ключевым элементом нашего Скрэпера стала прекрасная библиотека на Питоне Beautiful Soup. О ней много чего написано в разных местах, поэтому пока не будем подробно описывать, как она устроена. Просто скажем — она правда хороша!

С помощью Beautiful Soup мы создали алгоритм, который перебирает страницы сайта и выкачивает из них текстовую информацию. Проблема, которая возникает при этом — выкачивается огромное количество мусора (html-тэги, технические комментарии, подписи, не имеющие смысла без контекста, и т.д.) Чтобы обучить Искусственный интеллект под нашу задачу, нам нужны качественные очищенные данные. Как очистить данные от мусора?

Photo by The Creative Exchange on Unsplash
Photo by The Creative Exchange on Unsplash

Один вариант — воспользоваться классическим алгоритмом, то есть создать набор правил, по которым текстовые строки будут отфильтровываться. Трудность в том, что мусор очень разнообразен (образно говоря, попадаются и картофельные очистки, и пластиковые бутылки, и пакеты, и много чего еще). Понадобится большой и постоянно обновляющийся свод правил, чтобы качественно фильтровать текст.

Поэтому мы поступили по-другому — прикрутили к скрэперу простой AI, который выбрасывает мусор и оставляет только качественный текст. Добиться приемлемого качества оказалось совсем несложно — после обработки всего нескольких сайтов оно превысило 95%.

Мы будем постепенно рассказывать, как продвигается наш проект и что мы делаем с полученными данными. А пока будем рады поговорить про скрэпинг, если у кого-то есть интерес к данной теме. Давайте обсуждать в комментариях, либо напишите нам по ссылке в описании, мы обязательно ответим!

#ai data #искусственный интеллект #машинное обучение #big data #технологии