Найти в Дзене

«Тёмные данные» в генеалогии

Нет, эта заметка вовсе не о скелетах в шкафу. Каждый год в конце декабря я разбираю свой цифровой архив — это уже стало хорошей традицией. Но на этот раз, при разборе груды электронных книг, я заметил одну параллель.
Тёмные данные (англ.: dark data) — данные, которые собираются в ходе рутинных операций, но никоим образом не используются для получения какой-либо информации или принятия
Оглавление

Нет, эта заметка вовсе не о скелетах в шкафу. Каждый год в конце декабря я разбираю свой цифровой архив — это уже стало хорошей традицией. Но на этот раз, при разборе груды электронных книг, я заметил одну параллель.

Тёмные данные (англ.: dark data) — данные, которые собираются в ходе рутинных операций, но никоим образом не используются для получения какой-либо информации или принятия решений.

Тёмные данные могут храниться годами, но оставаться невостребованными по целому ряду причин.
Тёмные данные могут храниться годами, но оставаться невостребованными по целому ряду причин.

Если считать генеалогический поиск рутиной (а он зачастую таковой и является), то этот термин из IT неплохо ложится на наше хобби.

Примеры

«Тёмными данными» могут стать заказанные пять лет назад копии ревизий по селу в 500 дворов — если из них была использована информация лишь о 2-3 семействах, а копии с тех пор ни разу не открывались. Но чаще это что-то скачанное «на всякий случай». Какая-нибудь подборка сканов метрик по целому уезду, которые валяются в недрах накопителей, но ещё не просмотрены, потому что «не доходят руки». Чьи-то отчёты, методички, материалы курсов (иногда даже не открытые). Время идёт. Данные лежат, покрываясь цифровыми пылинками. Сверху на них наваливаются новые документы. И далее по нарастающей.

Причины

Причина явления глубоко психологическая — она кроется в информационном голоде, с которым мы нередко сталкиваемся по ходу исследования. Мы хватаемся за каждый мало-мальский обрывок сведений, собираем всё подряд — это создаёт иллюзию контроля и продвижения. Страх что-то упустить отступает, но на его место приходит другой, — оказаться погребённым под массой неструктурированной и неиспользуемой информации.

Масштаб проблемы

Объём «тёмных данных» зависит от степени фанатизма и «прижимистости» конкретного человека. Причины накопительства могут быть разными:

  • Кто-то стремится собрать ВСЁ, что хоть как-то связано с темой исследования — «чтобы было», или «про запас».
  • Кто-то надеется в будущем монетизировать собранное (найти заказчиков, продать информацию, использовать для платного поиска).

Мотивы вполне логичны. Запас карман не тянет, казалось бы. Но...

Последствия

Большая часть этих архивов лежит мёртвым грузом. Публикуются локальные подборки документов нечасто (какой смысл публиковать неразобранную кашу?), но ещё реже удаляются. Слишком жаль потраченного времени, денег и т.д. Это чем-то напоминает старые советские лыжи на балконах или деньги под подушкой. Чтобы от них был какой-то прок, вещь должна использоваться, а деньги находиться в обороте.

Ещё одна сторона накопительства без конкретной цели
Ещё одна сторона накопительства без конкретной цели

Критическая точка

Важно не упустить момент, когда объем данных превысит критическое значение, при котором их обработка станет невозможной из-за несоизмеримых трудозатрат. В противном случае всё собранное переходит из разряда «потенциальный актив» в «абсолютный неликвид», превращая жёсткие диски в цифровой могильник. Я такой момент поймать успел. Что-то я просто удалил, что-то перенёс в облака и оставил на ВГД, что-то передал другим, а после — тоже удалил безжалостно. То, что осталось — структурировал, заархивировал, создал резервные копии. И теперь работаю спокойно.

Судьба «тёмных данных»

Если они «просто лежат», то их ждёт предсказуемая судьба — потеря из-за скачка напряжения в сети / износа жёсткого диска / пролитой на ноутбук чашки кофе и тому подобного. Создавать резервные копии груды хлама объёмом в десятки и сотни гигабайт — сомнительное в своей пользе занятие.

Именно по этой причине мне как-то перестали нравиться веерные (то есть по всему уезду разом) «совместные закупки» сканов метрик, практикуемые у нас в уездных ТГ-чатах. Сканы выкупают — но потом нигде не публикуют. Парадокс: мы ругаем архивы за их закрытость, но сами создаём точно такие же закрытые коллекции.

Выбор есть всегда.
Выбор есть всегда.

Альтернатива

Хорошо хоть в Лукояновском чате (крупнейшем по губернии, кстати) не так: здесь все метрики и другие документы по уезду размещены в открытом доступе. С одной стороны, это привлекает в сообщество людей, что делает последующие сборы более дешёвыми. С другой стороны, данные сохраняются у всех членов сообщества — и если вдруг у кого-то крякнется комп, он восстановит хотя бы часть информации без труда. А иначе —

— «Имею огромное количество документов по уезду! Все вопросы в ЛС! На возмездной основе!»

Но однажды напряжение в сети подпрыгнет, и тёмные данные наконец озарит яркая вспышка. Жёсткий диск, таскавший на себе весь уезд, тихо испустит дух. В этот момент исследователь, словно в компьютерной игре, окажется в исходной точке: с опытом, но без инвентаря.

Никому не пожелаю такого. Напротив — я очень хочу, чтобы эта участь обошла вас стороной. Потому и призываю держать личные архивы в порядке. Цените своё время.

Удачи, друзья.