Контентная платформа «Дзен», принадлежащая социальной сети VK, вынесла запрет на использование роботом GPTBot от OpenAI для сканирования информации на своем сайте dzen.ru. Об этом стало известно из файла robots.txt, который содержит указание на запрет автоматического сбора данных. Представители VK пояснили, что данное решение было принято с целью снижения нагрузки на серверы «Дзена», которые работают без перерыва и ежесекундно обрабатывают огромное количество запросов.
"Рекомендательная система "Дзена" является одной из крупнейших в России. Мы направляем наши ресурсы на обеспечение качественного пользовательского опыта и поддержание высокой производительности серверов. Поэтому решено исключить GPTBot от OpenAI из списка разрешенных роботов", — пояснили в пресс-службе VK.
Строго говоря, файл robots.txt содержит лишь рекомендации для роботов, и ничего не мешает им проигнорировать указанные ограничения. В прошлом подобное решение принял проект Internet Archive, но позже от него отказался. Стоит отметить, что GPTBot используется OpenAI для сбора данных, которые затем используются в разработке нейросетевых продуктов. Компания не предоставляет доступ к этим продуктам в России, поэтому робот был заблокирован на сайте «Дзена» для пользователей из РФ.
Подобные роботы-«обходчики» также используются «Яндексом» и Google для сбора актуальной информации о сайтах. Однако обе компании предоставляют владельцам сайтов возможность запретить доступ своим роботам для сканирования контента (YandexAdditional и Google-Extended соответственно), при этом не исключая их из поисковой выдачи. В декабре 2023 года Главный радиочастотный центр, подведомственный Роскомнадзору, рекомендовал хостинг-провайдерам заблокировать обращения GPTBot.