22 подписчика

Блокировка роботов-сканеров веб-сайтов собирающих данные для обучения нейросетей

31 марта 202531 мар 2025

2 мин

Cloudflare анонсировала «AI Labyrinth», похожий, но более коммерчески отполированный подход для блокировки роботов-сканеров сайтов собирающих данные для обучения нейросетей. В отличие от Nepenthes, который разработан как наступательное оружие против компаний, занимающихся искусственным интеллектом, Cloudflare позиционирует свой инструмент как законную функцию безопасности для защиты владельцев веб-сайтов от несанкционированного скрейпинга, о чем мы сообщали в то время. Речь идёт о открытом списке поисковых роботов, связанных с AI-компаниями и обучением LLM блокировке. Также создатели списка рекомендуют пользователям внести свой вклад в этот список и внедрить его на своем собственном сайте. Если вы используете жесткую блокировку Cloudflare вместе с этим списком, вы можете сообщить о неправомерных поисковых роботах, которые не уважают этот список. Но даже если вы не используете жесткий блок Cloudflare, их список проверенных ботов может пригодиться.robots.txt «Когда мы обнаруживаем несанк

Речь идёт о открытом списке поисковых роботов, связанных с AI-компаниями и обучением LLM блокировке. Также создатели списка рекомендуют пользователям внести свой вклад в этот список и внедрить его на своем собственном сайте.

Если вы используете жесткую блокировку Cloudflare вместе с этим списком, вы можете сообщить о неправомерных поисковых роботах, которые не уважают этот список. Но даже если вы не используете жесткий блок Cloudflare, их список проверенных ботов может пригодиться.robots.txt

«Когда мы обнаруживаем несанкционированное сканирование, вместо того, чтобы блокировать запрос, мы будем ссылаться на серию страниц, созданных искусственным интеллектом, которые достаточно убедительны, чтобы побудить поискового робота пройти по ним», — пояснила Cloudflare в своем объявлении. Компания сообщила, что поисковые роботы с искусственным интеллектом ежедневно генерируют более 50 миллиардов запросов к их сети, что составляет почти 1 процент всего веб-трафика, который они обрабатывают.

Сообщество также разрабатывает инструменты для совместной работы, которые помогут защититься от этих поисковых роботов. Проект «ai.robots.txt» предлагает открытый список веб-краулеров, связанных с AI-компаниями, и предоставляет готовые файлы robots.txt, реализующие протокол исключения роботов, а также файлы .htaccess, которые возвращают страницы с ошибками при обнаружении запросов AI-краулеров.

В настоящее время как быстрый рост контента, созданного искусственным интеллектом, заполонили онлайн-пространства, так и агрессивные методы веб-сканирования со стороны компаний, занимающихся искусственным интеллектом, угрожают устойчивости основных онлайн-ресурсов. Нынешний подход, принятый некоторыми крупными компаниями в области ИИ, — извлечение огромных объемов данных из проектов с открытым исходным кодом без явного согласия или компенсации — рискует нанести серьезный ущерб самой цифровой экосистеме, от которой зависят эти модели ИИ.

Ответственный сбор данных может быть достижим, если компании, занимающиеся искусственным интеллектом, будут напрямую сотрудничать с затронутыми сообществами. Тем не менее, видные игроки отрасли не проявляют особого стимула для принятия более кооперативных практик. Без значимого регулирования или самоограничения со стороны компаний, занимающихся искусственным интеллектом, гонка вооружений между жадными до данных ботами и теми, кто пытается защитить инфраструктуру с открытым исходным кодом, вероятно, будет обостряться еще больше, потенциально углубляя кризис для цифровой экосистемы, лежащей в основе современного интернета.