Компания VK запретила роботу GPTBot от OpenAI обходить страницы сайта dzen.ru для индексации и автоматического сбора информации
Как сообщает «Коммерсантъ», в файле robots.txt, предназначенном для программ по автоматическому сбору данных с сайтов, появилась соответствующая директива. «Рекомендательная система «Дзена» — одна из самых больших в стране. Высоконагруженные сервисы работают беспрерывно и обрабатывают более 150 000 запросов в секунду», — пояснили в компании VK.
«Решение не включать GPTBot от OpenAI в файл принято для грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку. В «Дзене» регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам», — добавили в компании.
Файл robots.txt при этом носит по сути рекомендательный характер, поскольку технически ничего не запрещает роботам игнорировать прописанные в нем директивы. GPTBot используется для сбора информации, которая впоследствии используется для обучения нейросетевых продуктов OpenAI. Подобные роботы есть у «Яндекса» и Google — с их помощью поисковики поддерживают актуальные данные о сайтах. Для них доступ к «Дзену» компания VK не закрывала.
Здесь мы рассказываем, как работают роботы для анализа контента:
Unsplash