Найти в Дзене
ProAi

Боты атакуют: Википедия противостоят увеличению трафика виджетов для ИИ

Фонд Викимедиа, материнская организация Википедии и ряда других краудсорсинговых проектов, в среду сообщил о том, что с января 2024 года использование трафика для скачивания мультимедийных материалов из Викисклада возросло на 50%. Как отметила компания во вторник в своем блоге, причиной этого увеличения не является рост интереса со стороны любителей знаний, а наоборот, активность автоматизированных сборщиков данных, стремящихся обучать модели ИИ. «Наша инфраструктура спроектирована для обработки резких скачков трафика, вызванных интересом людей в ходе значимых событий. Однако объем трафика, создаваемый ботами-скрейперами, является беспрецедентным и влечет за собой возрастающие риски и затраты», — заявили представители фонда. Wikimedia Commons представляет собой открытое хранилище изображений, видео и аудиофайлов, которые доступны под открытыми лицензиями или находятся в общественном достоянии. По данным Wikimedia, почти две трети (65%) самого «дорогостоящего» трафика, то есть наибольше
Оглавление
   Боты атакуют: Википедия противостоят увеличению трафика виджетов для ИИ
Боты атакуют: Википедия противостоят увеличению трафика виджетов для ИИ

Введение

Фонд Викимедиа, материнская организация Википедии и ряда других краудсорсинговых проектов, в среду сообщил о том, что с января 2024 года использование трафика для скачивания мультимедийных материалов из Викисклада возросло на 50%.

Причины роста трафика

Как отметила компания во вторник в своем блоге, причиной этого увеличения не является рост интереса со стороны любителей знаний, а наоборот, активность автоматизированных сборщиков данных, стремящихся обучать модели ИИ.

«Наша инфраструктура спроектирована для обработки резких скачков трафика, вызванных интересом людей в ходе значимых событий. Однако объем трафика, создаваемый ботами-скрейперами, является беспрецедентным и влечет за собой возрастающие риски и затраты», — заявили представители фонда.

О Викискладе

Wikimedia Commons представляет собой открытое хранилище изображений, видео и аудиофайлов, которые доступны под открытыми лицензиями или находятся в общественном достоянии.

Статистика трафика

По данным Wikimedia, почти две трети (65%) самого «дорогостоящего» трафика, то есть наибольшего по ресурсам, формируется именно ботами. Однако на них приходится лишь 35% от общего числа просмотров страниц. По мнению специалистов Wikimedia, это объясняется тем, что высокозагружаемый контент хранится ближе к пользователю в кэше, тогда как менее популярные материалы располагаются дальше, в главном центре обработки данных, откуда их сложнее загрузить. Именно этот контент чаще всего запрашивается ботами.

«В то время как человеческие читатели, как правило, фокусируются на конкретных — зачастую схожих — темах, боты-краулеры, как правило, осуществляют «массовый просмотр» большего количества страниц и обращаются к менее посещаемым разделам. Это означает, что такие запросы с большей вероятностью попадут в главный центр обработки данных, что существенно увеличит нашу нагрузку», — отмечает Wikimedia.

Нагрузка на команду

Как следствие, специалисты по обеспечению надежности сайта Фонда Викимедиа вынуждены тратить значительное время и ресурсы на блокировку автоматизированных систем, чтобы не вмешиваться в работу обычных пользователей. И это не учитывая расходов на облачные сервисы, с которыми сталкивается организация.

Тенденции на рынке

На самом деле, это часть стремительно развивающейся тенденции, угрожающей базовым принципам открытого интернета. В прошлом месяце инженер-программист и сторонник открытого кода Дрю ДеВолт выразил опасение, что поисковые роботы игнорируют файлы «robots.txt», созданные для защиты от автоматизированного трафика.

В то время как инфраструктура с открытым исходным кодом находится под ударом, разработчики предпринимают меры «хитростью и мстительностью». Некоторые технологические компании также участвуют в решении этой проблемы — к примеру, Cloudflare недавно представила AI Labyrinth, который использует контент, созданный искусственным интеллектом, чтобы замедлить работу поисковых систем.

Заключение

Однако такие меры напоминают игру в кошки-мышки, и в конечном итоге это может привести к тому, что многие компании будут искать укрытие за логинами и платным доступом — что обернется негативом для всех интернет-пользователей.

Источник: TechCrunch

Статья Боты атакуют: Википедия борется с ростом трафика сборщиков данных для ИИ впервые появилась на AI News.

🔔 Подписывайтесь на мой канал Telegram!

В канале я буду публиковать свой опыт освоения автоматизации и взаимодействия с нейросетями, новости в мире ИИ, полезные гайды и много полезной информации!