Найти в Дзене
iReg.pro

Как парсить данные?

Как парсить данные? Это интересны вопрос. Есть целые направления big data и искусственный интеллект, основанные на работе данных. Какие суждения мы только не видели о данных: их нельзя парсить, наличие права собственности на данные и о новой цифровой экономике, которая умеет работать с данными, как с нефтью.

В этом есть доля истины, но не нужно забывать о логике закона. Данные не охраняются законом как объект права пока это информация. Информация — это сведения о явлениях и предметах материального мира, а не охраняемые законом объекты, например, идет дождь, на улице 5 человек с красными зонтами. Не возникнет проблем, если соберете такую информацию.

Главное, что вы должны помнить, что сбор данных не должен нарушать порядок работы сайта, и лишать сайт прибыли. Это связано с доктриной добросовестного использования. Следует внимательно следить за алгоритмами поисковых роботов и краулеров, которые вы обучаете работать.

Если сайт использует капчу как способ защиты контента, то обход капчи может противоречить условиям лицензионного соглашения. Важно отметить, что каждый сайт обладает таким лицензионным соглашением.

Лицензионное соглашение – это публичная оферта, которая распространятся на всех лиц, которые заходят на сайт. Именно в ней прописано, что можно делать, а что нельзя, например, что вы не можете парсить данные. Я понимаю, насколько это невыполнимая задача, поэтому не останавливаю на ней внимание. Кроме того, редко, когда лицензионное соглашение содержит условие о запрете парсинга данных.

Если в базе данных находятся объекты авторского права или персональные данные, то нужно быть в границах правил свободного использования. Разрешенное использование – это цитирование.

Что это означает? Вы не можете копировать базу данных, располагать данные в таком же порядке, потому что это нарушение исключительных прав на базу данных и ее содержимое. Каждый объект, который вы вносите и используете в порядке цитирования, должен содержать отсылку к источнику. Только такое использование является правомерным.

Цитирование разрешено законом в тех случаях, когда оно осуществляется в научных, исследовательских, полемических или культурных целях, поэтому если основная цель сбора данных – это монетизация, то это не то условие, которое позволит использовать их.

Если вы планируете монетизировать базу данных, придется договариваться с владельцами контента или владельцами ресурсов, которые размещают контент. Таким образом, вы можете правомерно парсить данные, если ваши краулеры и поисковые роботы не нарушают работу сайта. Эти простые советы помогут вам работать с данными.