Парсинг является законным, если вы собираете данные, доступные публично в интернете. Однако важно быть осторожным при парсинге персональных данных или объектов интеллектуальной собственности. Мы разъясним путаницу, связанную с законностью парсинга, и предоставим вам советы по соблюдению норм и этическим аспектам парсинга.
Вопреки распространенному мнению, парсинг сам по себе не подразумевает ничего теневого или незаконного. Это, однако, не означает, что любой вид парсинга является законным. Как и всякая человеческая деятельность, он должен оставаться в определенных рамках. В парсинге самые важные ограничения касаются персональных данных и правил интеллектуальной собственности, но также могут играть роль другие факторы, такие как условия использования веб-сайта.
Если вы хотите узнать больше о законности парсинга, читайте далее. Мы рассмотрим наиболее важные области поочередно и предоставим вам полезные советы по поддержанию соблюдения норм и этических стандартов для ваших парсеров.
Несмотря на то, что мы хотим помочь в мере своих сил, мы не знаем деталей вашего проекта. Для профессиональной юридической консультации обратитесь, пожалуйста, к сертифицированному юристу.
Что вы узнаете:
• Распространенные заблуждения относительно парсинга.
• Наиболее важные аспекты для соблюдения этических норм при использовании парсеров.
• Что такое персональные данные и как их идентифицировать.
• Как авторское право влияет на парсинг.
• Как веб-сайты предотвращают парсинг с использованием своих условий использования.
• Что такое Закон о компьютерном мошенничестве (CFAA) и как он связан с парсингом.
Парсинг полностью законен, если вы собираете данные, которые являются общедоступными в интернете. Однако некоторые виды данных защищены международными нормами, поэтому будьте осторожны при парсинге персональных данных, объектов интеллектуальной собственности или конфиденциальных данных.
Распространенные заблуждения
Прежде чем мы начнем, давайте разъясним несколько ложных утверждений. Иногда мы слышим, что "парсеры действуют в серой зоне закона". Или что "парсинг незаконен, но его никто не преследует, потому что это сложно". Иногда даже утверждают, что "парсинг - это взлом" или "парсеры крадут наши данные". Мы слышали это от клиентов, друзей, респондентов и других компаний. Но дело в том, что ничего из этого не является правдой.
Миф 1: Парсинг незаконен
Здесь всё зависит от того, что и как вы парсите. Это довольно похоже на ситуацию с фотографиями на вашем телефоне. В большинстве случаев это абсолютно законно, но фотографирование военной базы или конфиденциальных документов может привести вас к проблемам. С парсингом то же самое. Нет закона или правила, запрещающего парсинг. Но это не означает, что вы можете парсить всё.
Миф 2: Парсеры действуют в серой зоне закона
Вовсе нет. Законопослушные компании по парсингу - это обычные бизнесы, и они следуют тем же набору правил и норм, которые нужны всем остальным для ведения своего бизнеса. Парсинг не подвергается строгому регулированию, это правда. Но это ничего не подразумевает незаконного. Скорее наоборот.
Миф 3: Парсинг - это взлом
Несмотря на то, что слово "взлом" имеет много толкований, его чаще всего используют для описания доступа к компьютерной системе с использованием нестандартных средств, эксплуатируя систему. Парсеры получают доступ к веб-сайтам точно так же, как законный человеческий пользователь. Они не используют уязвимости и получают доступ только к данным, доступным публично.
Миф 4: Парсеры крадут данные
Парсеры собирают только данные, которые общедоступны в интернете. Можно ли украсть общедоступные данные? Представьте, что вы видите красивую рубашку в магазине, поэтому вы достаете телефон и записываете бренд и цену. Вы думаете, что вы украли информацию? Нет, вы бы этого не подумали.
Да, некоторые виды данных защищены различными нормами, и мы рассмотрим это позже, но кроме этого нет никаких проблем с сбором фактов, таких как цены, местоположения или рейтинги отзывов.
Как создать этичные парсеры
Несмотря на то, что большинство плохих вещей, которые вы читаете о парсинге, не соответствуют действительности, вам все равно нужно быть осторожными. Честно говоря, вы должны быть осторожными при ведении любого рода бизнеса. И парсинг не является исключением. Существуют определенные виды данных, которые вы не должны парсить, прежде чем пообщаться со своим юристом, и самым важным из них являются персональные данные.
Это не означает, что парсинг опасен. Есть правила, да, но вы можете использовать эмпатию, чтобы определить, будет ли ваш парсинг этичным и законным или нет. Вот список характеристик, которыми должен обладать этичный парсер:
• Парсер действует как хороший пользователь веба и не стремится перегружать целевой веб-сайт;
• Скопированная информация была общедоступной и не находилась за барьером аутентификации по паролю;
• Скопированная информация в основном имела фактический характер, и взятие её не нарушало права — включая авторские права — другого лица;
• Информация использовалась для создания трансформационного продукта и не использовалась для кражи рыночной доли у целевого веб-сайта путем привлечения пользователей или создания существенно схожего продукта.
Если вы следуете этим рекомендациям, вы можете быть уверены, что ваши парсеры будут законными и этичными.
Эта статья предоставляет рекомендации по этическому парсингу в рамках бизнеса. Если вы парсите для своего личного проекта или для академических исследований, это будет немного проще, но мы не будем рассматривать эти исключения здесь.
Подумайте дважды, прежде чем парсить персональные данные
Не так давно немногие беспокоились о персональных данных. Не было конкретных законов: имена, даты рождения и предпочтения при покупках всех были свободными для использования. Это больше не так во многих странах, включая, например Европейский союз (ЕС), Калифорнию и другие.
Поскольку нормы различаются во всем мире, вам нужно тщательно размышлять о том, откуда и чьи данные вы парсите. В некоторых странах это может быть вполне приемлемо, в то время как в других местах вам следует полностью избегать персональных данных.
Что такое персональные данные (информация) вообще?
Общий регламент по защите данных определяет персональные данные следующим образом: "Персональные данные означают любую информацию, относящуюся к идентифицированному или идентифицируемому естественному лицу". Это немного сложно читать, но дает нам представление о том, насколько широко охватывается это определение.
Чтобы проиллюстрировать широкий характер этого определения, давайте рассмотрим несколько примеров персональных данных:
• Официальные данные о человеке
- имя, фамилия
- дата рождения
- адрес
- номер социального страхования, номер паспорта, национальный идентификационный номер
- информация о занятости
• Контактные данные
- номер телефона
- адрес электронной почты
- IP-адрес
- идентификаторы в социальных сетях, такие как Facebook, Twitter и другие
• Данные, часто собираемые приложениями
- местоположение по адресу или по GPS
- предпочтения при покупках
- поведенческие данные
• Видео- и аудиозаписи людей и биометрические данные
• Особые категории персональных данных
- пол, гендер и сексуальная ориентация
- расовая или этническая принадлежность
- религиозные убеждения
- политические мнения
- медицинские записи
Как видите, практически любая информация о человеке считается персональными данными. Не забывайте, что это не исчерпывающий список. В случае сомнений перечитайте определение и попробуйте решить, подходит ли ваша информация под него или нет.
Публично доступные персональные данные
Большая часть сообщества парсинга живет под ложным впечатлением, что только частные персональные данные защищены, что бы это ни означало, и что сбор персональных данных из общедоступных источников - веб-сайтов - вполне допустим.
В соответствии с общий регламентом по защите данных все персональные данные защищены, и не имеет значения, откуда эти данные получены. Компания в ЕС была оштрафована довольно крупной суммой за парсинг общедоступных данных из польского бизнес-реестра. Позднее суд отменил штраф, но явно подтвердил запрет на парсинг общедоступных данных.
В соответствии с CCPA (Калифорнийский закон о защите прав потребителей) информация, предоставленная государством, такая как данные из бизнес-реестра, считается "общедоступной" и, следовательно, не защищена. В США существует важное дело, касающееся парсинга общедоступных данных из социальных сетей: HiQ против LinkedIn. Последнее решение суда поддерживает идею парсинга личной информации, сделанной общедоступной самим субъектом.
В 2023 году вступил в силу Закон о конфиденциальности в Калифорнии (CRPA), который расширил определение общедоступной информации в рамках CCPA. Данные, которые ранее были общедоступными по желанию субъекта, больше не защищаются, включая право пользователя отказаться от продажи такой информации.
Это, возможно, фактически позволило парсинг персональных данных с веб-сайтов, где люди свободно размещают свои персональные данные, таких как LinkedIn или Facebook, но только в Калифорнии. Другие штаты США, такие как Колорадо и Вирджиния, внесли аналогичное законодательство, и мы можем ожидать, что еще больше штатов США будет черпать вдохновение из CCPA и CPRA при разработке своего собственного законодательства о конфиденциальности.
Как этично парсить персональные данные?
Прежде чем начать анализ с точки зрения законности, используйте эмпатию. Вы думаете, что человек, чьи данные вы парсите, будет об этом рад? Это приносит пользу общему благу? При этичном парсинге мы рассматриваем не только то, что законно, но и то, что правильно.
Как только вы убедитесь, что ваш парсинг не наносит вреда никому, вы должны проанализировать, какие правила применяются к вам.
Наконец, вам следует программировать свои парсеры для сбора как можно меньшего количества персональных данных и хранить эти данные только временно. Создание базы данных людей и их информации (например, для генерации лидов) является очень сложным случаем в защищенных юрисдикциях, в то время как парсинг людей из отзывов на Google Maps для автоматической идентификации фальшивых отзывов, а затем уничтожение персональных данных, может легко пройти тест законного интереса.
Meta Platforms, Inc. против Social Data Trading Ltd.
В конце декабря 2021 года Meta Platforms, Inc. подала в суд на Social Data Trading Ltd. из Гонконга за парсинг данных профилей Instagram и Facebook. Дело Meta строится на обвинении Social Data Trading Ltd. в обходе блокировочных мероприятий Meta и тем самым в совершении незаконного взлома в соответствии с разделом 502 Уголовного кодекса Калифорнии.
Meta заблокировала учетные записи Social Data Trading, но утверждает, что ответчик использовал "тысячи автоматизированных аккаунтов Instagram для неправомерного сбора и агрегации данных". Хотя дело казалось готовым установить новый и полезный прецедент относительно влияния использования фейковых аккаунтов на законность, существенного решения так и не принято.
Social Data Trading так и не ответила на иск, и суд вынес только решение по умолчанию. Это автоматическое решение в пользу истца, когда ответчик не общается с судом, несмотря на то, что он был проинформирован о процессе.
Законно ли парсить контент, защищенный авторским правом?
Почти все содержимое в интернете защищено каким-то видом авторского права. Некоторые вещи более очевидно, чем другие. Музыка, фильмы, фотографии? Конечно, защищены. Новостные статьи, блоги, посты в социальных сетях, научные статьи? Тоже защищены. HTML-код веб-сайтов, структура и содержание баз данных, изображения, логотипы и цифровая графика? Все эти вещи защищены авторским правом. Единственное, что не защищено авторским правом, - это простые факты. Но что это значит для парсинга?
Если какой-то контент защищен авторским правом, это означает, между прочим, что вы не можете копировать его без согласия автора (лицензии) или законного разрешения. Поскольку само определение парсинга - это копирование контента, и у вас почти никогда нет явного согласия автора, законные разрешения - это ваш лучший вариант. Как всегда, законы в разных странах различаются. Мы рассмотрим только правила ЕС и США.
Data mining в Европейском союзе
В ЕС парсинг контента, защищенного авторским правом, разрешен статьей 3 и 4 Директивы 2019/790 о правах авторов и смежных правах на цифровом внутреннем рынке (DSM Directive). DSM Directive разрешает текстовый и дата-майнинг, что означает:
Любая автоматизированная аналитическая техника, направленная на анализ текста и данных в цифровой форме с целью генерации информации, которая включает, но не ограничивается, шаблонами, тенденциями и корреляциями;
Это очень важно, потому что это означает, что парсинг контента, защищенного авторским правом, разрешен только с целью генерации информации. Например, вы можете парсить веб-страницу для извлечения из нее цен, или книги для анализа естественного языка, но вы не можете парсить новостные статьи и затем перепечатывать их на своем собственном веб-сайте.
Есть еще несколько условий, которые вам нужно соблюсти, прежде чем ваш парсинг будет разрешен:
• Парсите только то, к чему у вас есть законный доступ - общедоступные данные.
• Для научных исследований вы можете свободно парсить практически что угодно.
• Для бизнеса владелец контента может отказаться от парсинга, явно зарезервировав это право в машиночитаемом формате.
Применение robots.txt
DSM Directive не предоставляет подробностей о том, как должно выглядеть явное резервирование в машиночитаемом формате, но общее предположение заключается в том, что владелец веб-сайта может использовать команду Disallow стандарта robots.txt или другие аналогичные средства, чтобы выразить это резервирование. Если URL-адреса, которые вы хотите парсить, запрещены, вы не должны их парсить. В противном случае вы рискуете нарушить авторское право владельцев.
Честный парсинг в Соединенных Штатах
В США парсинг контента, защищенного авторским правом, разрешен доктриной справедливого использования. Правила в чем-то похожи на европейские, но они не делают четкого различия между научными исследованиями и парсингом в коммерческих целях. Основной судебной практикой по применению справедливого использования к парсингу является дело Authors Guild против Google (дело Google Books). В деле Google Books суд пришел к выводу, что создание виртуальных копий контента, защищенного авторским правом - целых книг, - разрешено в рамках справедливого использования.
При применении доктрины справедливого использования к вашему парсингу мы рекомендуем сначала проверить, соответствуете ли вы этим условиям:
• Оригинальный контент преобразуется значимым образом. Например, HTML-код веб-страницы преобразуется в список названий товаров и цен. Не перепечатывайте оригинальный контент.
• Не создавайте конкурирующий продукт. Парсинг предложений по недвижимости для количественного анализа, скорее всего, допустим. Парсинг того же самого для публикации на своем собственном веб-сайте - определенно нет.
• Если это возможно, не копируйте существенную часть оригинального произведения. Если вам не нужны определенные данные, не парсите их.
Факты не защищены авторским правом, но следите за защитой базы данных.
Это вытекает из определения авторского права, согласно которому факты не могут быть защищены, потому что они не представляют собой оригинальное произведение автора, а лишь наблюдения за реальностью. Это было подтверждено в деле C.B.C. Distribution and Marketing, Inc. против Major League Baseball Advanced Media, L.P. Это означает, что в случае парсинга фактов, таких как цены на акции или погодные данные в США, вам в основном не нужно беспокоиться об авторском праве.
В ЕС вещи становятся немного сложнее. В соответствии с Директивой 96/9/EC о правовой защите баз данных (Database Directive) даже факты могут быть защищены, если их сбор, проверка или представление требовали существенных инвестиций. Это означает, что если кто-то затратил много усилий на создание набора данных, вы не можете просто скопировать его и делать с ним что угодно. К счастью, это ограничение отменено DSM Directive. Так что если вы парсите факты в ЕС, убедитесь, что вы соответствуете вышеописанным условиям.
Этичные парсеры не публикуют оригинальные произведения
Мы хотели бы подчеркнуть, что самый важный фактор - это уважение оригинальной работы автора и их бизнес-модели. Если вы соблюдаете это, у вас практически не будет жалоб от них. Этический парсер не перепечатывает или не продает оригинальные произведения ради собственной прибыли. Это пиратство, а не парсинг.
Парсинг контента, защищенного авторским правом, для обучения моделей ИИ
С использованием искусственного интеллекта так широко, возник волнующий юридический вопрос: можно ли парсить и использовать защищенный авторским правом контент в целях обучения модели искусственного интеллекта? По текущему состоянию вопроса, это некоторая загадка.
Некоторые эксперты с увлечением утверждают, что это безопасно вписывается в рамки допустимого использования согласно принципам справедливого использования, в то время как другие с тем же настойчивостью утверждают, что это представляет собой обширное нарушение авторского права. Нынешние правовые нормы не достаточно ясны, чтобы урегулировать этот спор, оставляя нас всех в ожидании решения этого неясного вопроса о законности.
Суды уже обсуждают несколько увлекательных судебных процессов по этой теме. Заметны два громких коллективных иска, возглавляемых юридической фирмой Clarkson против таких крупных игроков, как OpenAI и Google. Эти дела стремятся представлять интересы миллионов пользователей интернета и правообладателей и наполнены сильными заявлениями, включая обвинения в "незаконном сборе данных", злоупотреблении "украденной информацией" и предупреждениями о том, что искусственный интеллект может привести к "цивилизационному краху".
Истцы используют все возможные юридические теории, даже те, которые едва ли применимы, чтобы подкрепить свой случай. Объем заявлений и количество применяемых юридических теорий подчеркивают, насколько неопределен этот вопрос и насколько не готово текущее правовое поле. Мы можем только надеяться, что суды скоро предоставят детальные прецеденты.
Еще одно судебное дело, которое привлекает внимание, - это иск Getty Images против Stability AI, обвиняя в незаконном копировании и обработке миллионов изображений для обучения своего искусственного интеллекта Stable Diffusion.
Это дело выделяется среди других из-за огромного объема материала от того же правообладателя, а также значительной роли данных Getty Images в обучающих материалах искусственного интеллекта Stable Diffusion. Из-за этих уникальных факторов шансы на успех этого иска могут быть немного выше.
Так что, защищается ли авторским правом контент, созданный искусственным интеллектом? И можно ли использовать авторский контент для обучения искусственного интеллекта? Проверьте более подробное исследование темы искусственного интеллекта и авторского права, если вы хотите узнать больше.
Условия использования и парсинг
Могут ли владельцы веб-сайтов ограничивать парсинг в своих условиях использования? Да, они могут. Это может измениться в будущем, но на данный момент ничто не мешает владельцу веб-сайта добавить положения, запрещающие парсинг или автоматизированный доступ.
Но настоящий вопрос заключается в том: Могут ли эти положения быть обязательными? Правовая теория, лежащая в основе обязательности контракта, довольно сложна, но когда речь идет о парсинге, главное, что следует проверить, - это способ создания контракта.
Что такое browsewrap соглашения?
Термин browsewrap соглашение используется для описания контрактов, которые были заключены просто посещением веб-сайта. Худшие виды условий и положений могут быть скрыты в подвале сайта или глубоко спрятаны в выпадающих меню.
К счастью, юридическая теория, как правило, не принимает такие соглашения как действительные, потому что маловероятно, что пользователь даже прочитал соглашение и, следовательно, не мог согласиться с его условиями. Ключевым компонентом является представление соглашения пользователю.
Если веб-сайт использует всплывающее окно для отображения соглашения или размещает ссылку на соглашение в заметных местах, даже browsewrap соглашение может быть обязательным. Связанная судебная практика хорошо описана на Википедии.
Что такое clickwrap соглашения?
Clickwrap соглашения требуют действия со стороны пользователя. Эти условия не будут заключены просто при просмотре веб-сайта, а будут подтверждены нажатием кнопки или установкой флажка.
Этот тип соглашения чрезвычайно распространен в интернет-магазинах и в формах регистрации, где пользователь должен установить флажок перед продолжением или где кнопка "Далее" имеет примечание "Продолжая, вы соглашаетесь с нашими Условиями использования". Clickwrap соглашения являются вполне приемлемыми и справедливыми контрактами, и суды готовы их обязывать. Как показано в деле Ryanair против PR Aviation.
DSM Директива и Условия использования
Парсерам в ЕС теперь будет немного легче благодаря DSM Директиве. Как мы упоминали выше, data mining разрешен при определенных условиях, и если владелец веб-сайта хочет отказаться от парсинга, он должен сделать это в машинно-читаемом формате.
Это приносит дополнительную безопасность парсерам, потому что им не нужно, чтобы их юридический отдел находил и рассматривал сложные условия использования веб-сайта. Их парсеры будут делать это автоматически.
Framework для оценки Условий использования при парсинге
Несмотря на то, что теория и практика могут показаться сложными, на деле довольно легко определить, может ли веб-сайт успешно предотвратить парсинг с использованием своих Условий использования. При создании парсера для конкретного веб-сайта обращайте внимание на шаги, которые выполняет робот на веб-сайте.
Нужно ли ему в какой-то момент нажать кнопку, которая ссылается на условия сайта? Или ему нужно закрыть модальное окно с условиями, чтобы продолжить? Он выполняет регистрацию в каком-то сервисе? Если робот должен выполнить шаг, который приведет к привязке человека к условиям веб-сайта, то, скорее всего, условия были заключены законно и обязательны.
С другой стороны, если на протяжении всего процесса парсинга вы не видели ни одного упоминания о условиях и положениях, они, вероятно, зарыты где-то глубоко, и, скорее всего, не ваша задача их искать. Если владельцам веб-сайта нужно, чтобы условия были обязательными, они должны отображать их заметно. Это честно. Тем не менее, если у вас есть сомнения, дайте своим юристам решить их.
Это цитата из ранее упомянутого предварительного постановления суда по делу HiQ против LinkedIn. Мы считаем, что это отличное руководство, как подходить к односторонним запретам на парсинг со стороны владельцев веб-сайтов:
[...] в целом общественный интерес предполагает поддержку позиции hiQ. Мы соглашаемся с решением окружного суда о том, что предоставление компаниям, подобным LinkedIn, свободы решать на любом основании, кто может собирать и использовать данные - данные, которыми они не владеют, которые они в противном случае делают общедоступными для зрителей и которые они сами собирают и используют - создает риск возможного создания информационных монополий, что будет в ущерб общественному интересу.
CFAA и уголовная ответственность в США
Последняя проблема, с которой сталкиваются парсеры, только в США. Это чрезвычайно распространенное утверждение, что парсинг нарушает Закон об использовании компьютеров и борьбе с их злоупотреблением (Computer Fraud and Abuse Act - CFAA) - контроверзиальный закон о борьбе с хакерством, принятый в 1986 году (да, это было еще до существования современного интернета). Согласно CFAA, незаконный доступ к компьютерной системе является уголовным преступлением. И суды обсуждали, что означает "без авторизации", с тех пор.
Верховный суд США поддерживал узкую трактовку закона. В деле Van Buren против Соединенных Штатов Верховный суд решил, что "положение CFAA о "превышении авторизованного доступа" охватывает тех, кто получает информацию из компьютерных сетей или баз данных, к которым их компьютерный доступ не распространяется, и не охватывает тех, кто, как Ван Бюрен, имеет неправильные мотивы для получения информации, которая им в противном случае доступна".
Окончательный ответ на этот юридический вопрос был дан Девятой апелляционной палатой в апреле 2022 года, когда она окончательно подтвердила, что парсинг общедоступных данных не способен нарушить CFAA. Девятая апелляционная палата развивает дело Van Buren, где Верховный суд США использовал "поднимающий или опускающий вопрос" (т.е. если требуется и дано разрешение, ворота подняты; если требуется разрешение и его нет, ворота опущены) для доступа к защищенному компьютеру.
В своем последнем решении по делу HiQ против LinkedIn Девятая апелляционная палата указала, что определяющей чертой общедоступных веб-сайтов является отсутствие ограничений на доступ; следовательно, используя аналогию с воротами - в первую очередь ворот не было. Другими словами, где изначально не требуется разрешение, позднее нечего было бы отозвать. Понятие CFAA "без авторизации" просто не применяется к общедоступным веб-сайтам.
Заключение
Итак, парсинг веб-страниц законен или нет? Это сложная вопрос, но мы твердо убеждены, что это так, и надеемся, что этот краткий и смело упрощенный юридический анализ убедил и вас. Мы также считаем, что у парсинга веб-страниц большое будущее.
Мы видим медленный, но устойчивый сдвиг парадигмы в принятии парсинга как полезного и этичного инструмента для сбора информации и даже создания новой информации в Интернете. В конце концов, это не что иное, как автоматизация работы, обычно выполняемой людьми. Парсинг веб-страниц просто делает этот процесс быстрее и надежнее. И самое главное, это позволяет людям сосредоточиться на более важных вещах.
Ещё больше полезной информации, готовых решений и ценных советов — в нашем блоге.
Статья переведена с сайта Apify