Добавить в корзинуПозвонить
Найти в Дзене

ИИ съедает историю: как дефицит дисков и борьба с ботами убивают цифровые архивы

Привет!
Эпоха нейросетевого безумия принесла неожиданный побочный эффект: цифровые архивариусы оказались между молотом и наковальней. С одной стороны, цены на жесткие диски улетели в стратосферу, с другой — сайты забаррикадировались от ботов так, что под раздачу попали даже добрые «собиратели истории». Если вы думали, что видеокарты — это единственная деталь ПК, за которую нужно продавать почку, то у меня плохие новости. Бум ИИ вызвал настоящий кризис хранилищ. Гиперскейлеры (огромные облачные провайдеры) забронировали все производственные мощности, из-за чего цены на емкие HDD взлетели до 3 раз по сравнению с обычным уровнем. Для таких гигантов, как Internet Archive, это превратилось в суровую борьбу за выживание: Wikimedia Foundation тоже не в восторге: поддержка 65 миллионов статей Википедии требует жесткого планирования бюджета, а текущая турбулентность с поставками серверов и дисков только усложняет жизнь некоммерческому сектору. Вторая беда — «ковровая бомбардировка» ботов. Влад
Оглавление


Привет!
Эпоха нейросетевого безумия принесла неожиданный побочный эффект: цифровые архивариусы оказались между молотом и наковальней. С одной стороны, цены на жесткие диски улетели в стратосферу, с другой — сайты забаррикадировались от ботов так, что под раздачу попали даже добрые «собиратели истории».

Великий дефицит памяти

Если вы думали, что видеокарты — это единственная деталь ПК, за которую нужно продавать почку, то у меня плохие новости. Бум ИИ вызвал настоящий кризис хранилищ. Гиперскейлеры (огромные облачные провайдеры) забронировали все производственные мощности, из-за чего цены на емкие HDD взлетели до 3 раз по сравнению с обычным уровнем.

Для таких гигантов, как Internet Archive, это превратилось в суровую борьбу за выживание:

  • Организация хранит около 210 петабайт данных.
  • Ежедневно в недра Wayback Machine и других коллекций вливается еще по 100 терабайт.
  • Идеальные для такой работы диски на 28–30 ТБ либо отсутствуют в продаже, либо стоят как крыло самолета.
  • Основатель архива Брюстер Кейл признает, что ситуация сжирает огромное количество времени и денег, вынуждая сообщество искать обходные пути.

Wikimedia Foundation тоже не в восторге: поддержка 65 миллионов статей Википедии требует жесткого планирования бюджета, а текущая турбулентность с поставками серверов и дисков только усложняет жизнь некоммерческому сектору.

Огонь по своим: война с ботами

Вторая беда — «ковровая бомбардировка» ботов. Владельцы сайтов в ужасе закрываются от бесконечных краулеров, которые воруют контент для обучения нейросетей. Но защитные механизмы часто не видят разницы между жадным ИИ и благородным архиватором. В итоге попытки сохранить снимок страницы для истории натыкаются на те же блокировки, что и коммерческий парсинг.

Паника среди «хомяков»

Кризис ударил даже по энтузиастам. В сообществе r/DataHoarders на Reddit царит уныние: люди, которые годами собирали цифровые библиотеки у себя в подвалах, массово прекращают деятельность. Найти диск большой емкости по рекомендованной цене сейчас практически невозможно, и многие просто ждут у моря погоды.

Даже такие специализированные проекты, как End of Term Archive (сохраняют сайты правительства при смене администраций), живут лишь надеждой, что к моменту их следующего апгрейда рынок хоть немного остынет. Иронично: мы учим машины думать на основе всех накопленных знаний человечества, попутно уничтожая инструменты для сохранения этих самых знаний.