Первая часть (о реалиях архивного поиска) здесь.
Итак, про метрики поговорили, теперь вернёмся на «точку входа», к сельхозпереписи (фонду Р-124). Есть хорошие новости: ЦАНО уже начал понемногу добавлять дела из этого фонда в АИС. В первой десятке загруженных дел оказались несколько подворных карточек по селу Кочкурово Лукояновского уезда — они-то и помогут нам показать, как работает метод оптимизации поиска. Село Кочкурово было выбрано мной по ряду причин:
- Это не моё родное село, местные семьи и фамилии мне незнакомы;
- В нашей прошлой заметке о брачных традициях мы это село не рассматривали и местной специфики пока что не знаем;
- И в то же время, метрики по селу за 1881-1917 годы опубликованы Михаилом Болоничевым бесплатно и для всех, что позволит нам проверить все свои предположения без особого труда. Сейчас эти дела находятся в описи 10. Метрики неполные, местами есть утраты — не факт, что с их помощью получится узнать всё, что хотелось бы.
Проведём своего рода учения. Представим, что мы не на диване перед экраном ноутбука, а «в поле», в читальном зале ЦАНО. Смоделируем архивную работу.
В исходной точке
Перед нами подворная карточка из материалов с/х переписи 1917 года. Наш герой — крестьянин села Кочкурово, Балакин Матвей Семёнович 32 лет, отсутствующий в селе по причине призыва на фронт. В карточке показана его жена 30 лет, сын 10 лет, дочери в возрасте 7, 6, 4 и 1 года:
Наша задача: найти записи о рождении самого Матвея Семёновича, его детей, а также найти запись бракосочетании Матвея за минимальное количество «ходов» (просмотренных лет по МК).
Подготовка к работе с метриками
Временные шкалы
Жизнь любого человека (в том числе и крестьянина XIX века) можно представить в виде временной шкалы (временной ленты или таймлайна), на которую нанесены даты всех известных событий в жизни предка. Если эту временную шкалу максимально упростить, она будет выглядеть вот так:
Когда мы первый раз приходим в архив, таймлайн нашего предка пуст. Но после того, как мы возьмём в руки карточку сельхозпереписи, на нём появляются несколько точек со знаками вопроса. Это — расчётные даты его рождения и рождения его детей, жены (а возможно и внуков, братьев и т.п., в каждой карточке по-разному). Тут всё просто: из года переписи вычитаем дату по карточке, и отмечаем результат на шкале времени:
Мы уже знаем, что даты в карточке могут быть неточны, и даже знаем, насколько именно. График, который показывает вероятность отклонения расчетной даты рождения от реальной (по метрике) мы возьмём из предыдущей заметки и изобразим его в виде гистограммы. Вот он:
Эта картинка подскажет нам и маршрут движения по метрикам. Вероятность того, что возраст в карточке указан точно (отклонение равно нулю) — максимальна и составляет 44% (43,7, если совсем точно): это центральный столбец, и он самый высокий. Метрику за расчётный год берём в первую очередь. Следом смотрим метрику на 1 год меньше расчётного. И так далее, продвигаясь от самого высокого столбца к самому низкому, мы последовательно «прочёсываем» метрические книги вокруг расчётной даты. С вероятностью 95% запись о рождении будет найдена в диапазоне ±2 года от расчётной (общий диапазон поиска — 5 лет).
Fun Fact: Ещё несколько лет назад тематический запрос в ЦАНО исполнялся по периоду в 5 лет (дата события и ±2 года от неё). Сейчас он составляет всего три года (дата события и ±1 год). Не люблю говорить что «раньше было лучше», но... Я уже это сказал.
Итак, если мы добавим гистограмму для каждой персоны на таймлайн, то мы получим что-то похожее на «горы» с «равнинами». Здесь вершины — точки интереса, а равнины — те годы, куда смотреть следует лишь от отчаяния:
По сути, мы только что составили карту поиска. С кого именно сто́ит начать? Зависит от сохранности метрических книг и вашего желания. По идее, чем ближе к дате события — тем возраст карточках точнее. Но мы помним, что пока у нас есть только общая гистограмма, для всех возрастов и без разделения по полу. Поэтому для примера начнём с самого сложного: с хозяина.
Работа с метриками
Ищем рождение главы семейства.
- Возраст Матвея Семёновича по карточке составляет 32 года (расчётный год рождения 1885 г.) Вероятность найти запись «с наскока» в 1885-м не очень велика — 44%, поэтому в случае провала — переходим к 1884 году (вероятность успеха составит уже 65%), если снова провал — смотрим 1886, затем 1883, после — 1887 годы. В данном случае нам не очень повезло, поскольку Матвей родился 14 августа 1887 года, и мы потратили время на просмотр четырёх лишних лет (на самом деле не лишних, но об этом чуть позже). Просмотрены МК за 5 лет.
- Далее ищем сына. Расчётный год его рождения — 1907. В этом году запись не найдена, но нашлась запись в 1906-м: 29 октября у Матвея Семёновича родился сын Александр (просмотрены МК за 2 года, всего — за 7 лет).
- Аналогично ищем и дочерей. Начинаем с младшей дочери, которая согласно расчёту, родилась в 1916 году. Находим запись о её рождении 17 февраля 1916 (попадание год в год). Далее в расчётных годах находим дочерей Марфу (родилась 9 июня 1913 года) и Анну (родилась 27 января 1911 года). После ищем старшую дочь. И тут случилась заминка:
В 1909 и 1910 годах записей о рождении детей у Матвея Семёновича не нашлось; 1911 год уже был просмотрен; а в метрике за 1908 год нашлась запись о рождении 29 ноября Анны. На момент переписи ей было 8,5 лет - отклонение от расчётной даты небольшое, и с высокой вероятностью это именно старшая дочь, показанная в карточке. Но поскольку часть записей за январь 1910 года в приходской метрике утрачена, я бы посмотрел и консисторский экземпляр (тем более, что январь 1910 года находится примерно посередине между рождениями двух сестёр-тёзок). Для того чтобы найти четырёх человек мы просмотрели МК за 6 лет, а всего — за 13 лет.
Как видите, алгоритм не гарантирует идентификацию персоны, он лишь подсказывает, где следует искать. Идентификация требует дополнительных усилий: сопоставления дат рождения других детей, интервалов между рождениями, учёт сроков беременности и т.д.
Теперь поговорим немного о том, как с помощью вероятностей искать записи о бракосочетаниях.
Сбор данных для построения локальной демографической модели
Когда метрики просмотрены, и все выписки сделаны, не торопитесь сдавать дело в хранилище. Начните подготовку фундамента для следующего этапа работы. Для этого следует выписать возрасты первобрачных крестьян и солдат из второй части метрических книг (только возрасты, без имён). Даже если это не наши родственники, а совершенно посторонние люди, мы выписываем последовательно одну цифру за другой. Получаем вот такую простенькую таблицу:
Переходя от года к году, продолжаем собирать данные. Когда наберётся 100-150 значений, можно пробовать строить диаграмму вероятности брака в зависимости от возраста. Это — локальная демографическая модель, учитывающая именно местные традиции. На первом этапе работы мы просмотрели метрики за 1883-1887, 1908-1911, 1913 и 1916 годы.
После этого подсчитываем (вручную, либо программно) количество мужчин и женщин, которые в определенном возрасте вышли замуж. Для Кочкурова мы получим вот такую картинку:
Такая «рваная» по годам выборка может не в полной мере отражать реальность, но ничего точнее у нас пока нет. К слову, Кочкурово — село большое, поэтому в данную выборку попало много сельчан (несколько сотен). В любом случае, мы можем дополнять таблицу и уточнять данные с каждой новой просмотренной метрикой.
Посмотрим на картинку выше. Из неё следует, что в Кочкурове наиболее вероятный возраст вступления в брак для мужчины составлял 18 лет. Далее в порядке убывания — 19, 20, 17, 25, 27, 24, 26 лет и т.д. Доверительный интервал здесь большой (включает возрасты от 17 до 27 лет), и условно состоит из двух частей: 17-22 года (впервые женятся крестьяне) и 24-27 лет (впервые женятся солдаты). У женщин он гораздо у́же (6 лет: 16-21 год).
Совет от Соника: Не лишним будет выписать возрасты и в ближайших (географически) соседних сёлах. Много времени это не займёт, зато даст вам информацию для общей картины в вашем районе. Ведь браки могли заключаться между крестьянами разных сёл: в этом случае собранные сведения станут хорошим подспорьем в дальнейшей работе. Кто знает, куда кривая заведёт?
И самое важное: приступать к поиску брака следует уже после того, как найдена запись о его рождении нашего героя. Иначе и без того широкий диапазон будет дополнительно расширен за счёт «разброса» исходных данных.
Но поскольку дата рождения Матвея Семёновича уже известна, то мы наносим гистограмму браков на временную шкалу и видим, что брак его был наиболее вероятен в 1905 году, при этом более поздний брак был явно невозможен (в 1906-м уже родился сын). Так что таймлайн здесь даже избыточен. Открываем метрику за 1905-й и сразу находим запись:
Теперь мы знаем девичью фамилию жены Матвея. Родилась она, судя по всему, в 1886-м году. В приходских метриках за этот год большие утраты, следовательно, для поиска записи о рождении Ксении нужно обратиться к консисторским МК. Просмотрена МК за 1 год, всего просмотрено МК за 14 лет.
Обратите внимание: согласно записи о браке, Ксения старше Матвея на год, а по данным из карточки, жена младше мужа на два года. Может быть, это ошибка в карточке, а может и нет. Следует проверить метрику за 1917-й год.
Если бы мы работали только с третьей описью, то просмотр 14 дел занял бы у нас от 28 до 42 недель, от 7 до 10 месяцев на поиск только одной семьи. Но у нас получилось «выудить» основные сведения из «быстрой» 10-й описи, а также составить план поиска по третьей. И тем не менее, наше исследование продлилось бы дольше, потому что мы ещё не выполнили главного:
Верификация находок
Чтобы убедиться в том, что мы ничего не упустили, следует «по полной программе» использовать доступные приходские метрики, а именно:
- Нашли рождение — проверьте смерть;
- Нашли брак — проверьте, как далеко старший ребёнок в карточке отстоит от даты брака. Возможно, были и умершие в младенчестве дети, которые в карточку не попали.
Так вы точно ничего не пропустите.
Узкие места
У метода в его текущем виде два узких места:
- В части поиска рождений: выборка, взятая отсюда, по-прежнему не очень большая (всего 151 человек с перекосом в сторону молодёжи). Думаю, чтобы метод стал полностью рабочим, следует набрать минимум по 100 человек в каждой десятилетней возрастной группе, а детей 0-5 лет выделить в отдельную группу, и работать с отдельными гистограммами для каждого возраста. Поэтому работу нужно продолжать.
- В части поиска бракосочетаний: чем меньше приход (и следовательно, чем меньше венчаний совершалось в нём ежегодно), тем труднее будет накопить достаточный объём данных для анализа. Или же придётся довольствоваться не очень точными данными (хотя и это лучше, чем брутфорсить по-дедовски).
Выводы
Плюсы алгоритма
- Главные муки в архиве — ощущение неуверенности и беспомощности: «Запись должна быть, а её почему-то нет». Понимание специфики документа и вероятности ошибок избавляет от этого дискомфорта. Мышление перестраивается: «Я всё проверил и перепроверил. Если здесь ничего нет, значит либо данные неверны, мы столкнулись с чем-то необычным (статистический выброс / старообрядцы / приимыши / венчание в соседнем приходе) — переходим к плану Б или откладываем на потом». Бережёт нервные клетки.
- Если ваш бюджет на поиск ограничен, или вы находитесь в жёстких временных рамках, а в архиве бываете урывками между работой и детьми (как ваш непокорный слуга) — такой подход к поиску может помочь с планированием. Есть хорошая фраза: «Время — дефицитный ресурс, и если им не уметь управлять, то всё остальное также останется неуправляемым».
Недостатки алгоритма:
- Метод становится целесообразным только при систематической работе над большой родословной или в коммерческих исследованиях. Для человека, который пришел в архив «просто найти бабушку», такой подход явно избыточен. Многим важен скорее процесс поиска, и находка для них —праздник, а не закономерный результат (коммерсы посмеиваются над таким подходом, но в нём нет ничего плохого и он имеет право на жизнь).
- Для того чтобы метод работал, нужны локальные выборки данных. Хотя брачные традиции разных сёл и могли быть схожи, но самый точный результат принесёт именно выборка по тому селу, с которым ведётся работа. Для понимания проблемы — вот гистограмма вероятностей браков в селе Богомолово Балахнинского уезда. Сравните с той, что мы работали выше. Там был острый пик, здесь — явное плато возрастов: искать здесь будет тяжелее.
Спорный момент
- Генеалогия, особенно для любителей (таких, как я)— это хобби с элементами детектива и путешествия во времени. То, что здесь обычно в цене — «озарения», «невероятные совпадения», «удивительные находки», остаются за бортом. Построение работы на статистике гробит всю романтику, от «механичности» поиска берёт оторопь: вы буквально становитесь роботом-оператором поискового конвейера. Вроде и круто, а вроде и нет.
Такие дела. Скорее всего, я только что изобрёл велосипед. Да, алгоритм требует некоторой доработки, но наверняка коммерсы также пользуются похожими шаблонами, потому что в иное я отказываюсь верить. Ведь если они строят работу на одной интуиции и брутфорсе, то как-то совсем грустно становится. А так... Вроде есть над чем подумать, да? Неплохая разминка для мозгов.
Желаю всем хорошо провести Масленицу, тем, кто держит пост — достойно пройти его. Ну и удачи пожелаю, как всегда. Увидимся после Пасхи (вероятно).