Amazon Web Services (AWS) начала расследование против Perplexity AI из-за обвинений в нарушении правил парсинга веб-страниц. Это расследование возникло после сообщений о том, что Perplexity, поддерживаемая семейным фондом Джеффа Безоса и Nvidia, оцениваемая в 3 миллиарда долларов, могла собирать контент с веб-сайтов, несмотря на запреты, установленные Протоколом исключения роботов (robots.txt).
Хотя этот протокол не имеет юридической силы, AWS требует его соблюдения в соответствии с условиями обслуживания, которые запрещают незаконную деятельность и требуют соблюдения всех применимых законов.
По данным расследования WIRED, поисковый чат-бот Perplexity, управляемый искусственным интеллектом, мог парсить и плагиатить контент, включая ресурсы Condé Nast, несмотря на блокировки через robots.txt. Сообщается, что Perplexity использовала IP-адрес, связанный с сервером AWS, для этих действий. Генеральный директор Perplexity Аравинд Сринивас опроверг обвинения, заявив, что существует «фундаментальное непонимание» работы их систем и интернета. Тем не менее, Condé Nast и другие СМИ зафиксировали несанкционированный доступ к IP-адресам Perplexity, что может свидетельствовать о нарушениях веб-стандартов.
В ответ на расследование AWS представитель Perplexity Сара Платник заявила, что их деятельность не изменилась в свете обвинений, и утверждает, что PerplexityBot в целом соблюдает директивы robots.txt. Однако, она отметила исключение, когда пользователи вручную вводят URL-адреса, утверждая, что это не является несанкционированным сканированием, так как имитирует прямое взаимодействие пользователя с сайтом. Эта позиция согласуется с заявлениями Perplexity о соблюдении условий обслуживания AWS. Однако генеральный директор Digital Content Next Джейсон Кинт выразил обеспокоенность по поводу возможного злоупотребления цифровым контентом, защищенным авторским правом.
Еще больше интересной и полезной информации на нашем телеграм канале: Ai Сознание
Вопросы для обсуждения:
- Должны ли компании, занимающиеся парсингом данных, соблюдать все директивы robots.txt, даже если они не имеют юридической силы?
- Как вы считаете, какие меры должны принимать платформы, чтобы защитить цифровой контент от несанкционированного использования?
- Можно ли считать ручное введение URL-адресов пользователями законным обходом директив robots.txt?
Поделитесь своим мнением в комментариях!