31 подписчик

Nature бьёт тревогу: «Голодные» AI-боты ставят под угрозу научные знания

17 июня 202517 июн 2025

3 мин

В июне 2025 года журнал Nature опубликовал тревожную статью о новой угрозе для мировой науки: массовое нашествие AI-ботов на академические сайты и базы данных. Эти «цифровые саранчи» — автоматические программы, которые скачивают миллионы страниц и изображений для обучения искусственного интеллекта, — уже привели к сбоям и даже временному «падению» ряда научных ресурсов. По оценкам, более 90% открытых научных хранилищ столкнулись с этой проблемой, а две трети из них испытали перебои в работе. Как работает «цифровая саранча»? Представьте себе библиотеку, в которую внезапно врывается толпа людей, не читающих книги, а просто без остановки копирующих каждую страницу. Именно так сегодня выглядят многие научные сайты: DiscoverLife, крупнейший онлайн-архив изображений живых организмов, с февраля 2025 года ежедневно подвергается миллионам автоматических запросов, из-за чего сайт стал медленным и часто недоступным для настоящих учёных. Виноваты не хакеры и не вирусы, а AI-боты — специальные прог

Как работает «цифровая саранча»?

Представьте себе библиотеку, в которую внезапно врывается толпа людей, не читающих книги, а просто без остановки копирующих каждую страницу. Именно так сегодня выглядят многие научные сайты: DiscoverLife, крупнейший онлайн-архив изображений живых организмов, с февраля 2025 года ежедневно подвергается миллионам автоматических запросов, из-за чего сайт стал медленным и часто недоступным для настоящих учёных.

Виноваты не хакеры и не вирусы, а AI-боты — специальные программы, которые собирают данные для обучения больших языковых и генеративных моделей. Для таких моделей нужны огромные массивы свежей, структурированной и достоверной информации, а научные публикации, базы данных и открытые репозитории — идеальный источник.

Почему это стало проблемой именно сейчас?

Интернет-краулеры (web crawlers) существуют давно: поисковые системы вроде Google используют их для индексации сайтов. Но с бумом генеративного AI ситуация изменилась: количество и агрессивность «плохих» ботов резко выросли. Например, на сайте медицинского издательства BMJ в 2025 году трафик от ботов впервые превысил трафик от реальных пользователей, что привело к сбоям в работе.

Согласно опросу COAR (Консорциум открытых архивов), 90% опрошенных научных хранилищ столкнулись с массовым скачиванием данных AI-ботами, а две трети — с перебоями в работе.

Почему именно научные сайты?

Для AI-стартапов и крупных компаний научные публикации — это «золото»: они содержат свежие, проверенные и хорошо структурированные данные. Как отмечает вице-президент Cloudflare, если ваш контент уникален и актуален, он становится «бесценным» для разработчиков AI-чат-ботов.

Боты часто действуют анонимно, обходят платные стены и игнорируют стандартные ограничения (robots.txt). Даже крупные издательства, такие как Wiley, отмечают, что боты научились получать доступ к закрытым материалам.

Как сайты пытаются защититься?

Ограничить доступ ботам — задача непростая. Можно запретить им доступ через robots.txt, но «плохие» боты это игнорируют. Можно блокировать подозрительные IP-адреса, но тогда страдают и обычные пользователи, например, учёные, работающие через прокси-серверы университетов.

Компании вроде Cloudflare и PSI разрабатывают системы для распознавания и блокировки вредоносных ботов, но новые методы обхода появляются постоянно. Особенно тяжело приходится небольшим организациям с ограниченными ресурсами: если ситуация не изменится, часть из них может просто исчезнуть.

Что делать дальше?

Эксперты сходятся во мнении: необходимы международные соглашения о справедливом использовании данных для AI и уважении к научным ресурсам. Без этого, предупреждают специалисты, AI-стартапы и крупные компании рискуют остаться без качественных данных для обучения — ведь если базы данных будут разрушены, новые знания брать будет просто неоткуда.

Итоги

AI-боты, охваченные «данными голода», уже стали серьёзной угрозой для открытой науки. Если не принять меры, мы рискуем потерять доступ к важнейшим научным знаниям, а развитие AI может замедлиться из-за нехватки качественных данных.

Ссылки и источники:

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/