Найти в Дзене

Генеалогическая реконструкция: шаг второй. Индексация

Оглавление

Первая часть здесь: ссылка

Введение

Под индексацией генеалогических источников я имею в виду перевод метрических книг, ревизий, и прочих документов в текстовый (машиночитаемый) вид. Индексация необходима для быстрого поиска нужной персоны среди множества рукописных страниц — зачастую весьма трудночитаемых. При составлении «любительской» родословной индексация не обязательна, но тем не менее, иногда выполняется. При генеалогической реконструкции населенного пункта обойтись без индексации, как правило, нельзя.

В чем индексируем?

В предыдущем посте мы определились с перечнем документов, которые будем переводить в текст. Теперь ответим на вопросы: какую программу использовать и в какой форме вести записи? Если с выбором софта всё просто (подходящих инструментов раз-два и обчелся), то с форматом хранения данных желательно определиться сразу, ведь разнообразие здесь просто безумное :)

Подборка пользовательских шаблонов из открытых источников. Кто во что горазд! Но никого не критикую: мой шаблон тут тоже затесался.
Подборка пользовательских шаблонов из открытых источников. Кто во что горазд! Но никого не критикую: мой шаблон тут тоже затесался.

Руководствуясь интуицией, абсолютное большинство исследователей используют табличные редакторы (Excel, Google Sheets, LibreOffice Calc и т.п. — принципиальной разницы между ними нет). Есть гурманы, которые работают с Word. Но крайне редко можно встретить реликтов, набирающих ревизии в LaTeX. На этом варианте остановимся подробнее. Большинству слово «LaTeX» не знакомо. Конечно, звучит оно вычурно, солидно. Признаюсь, первой моей реакцией было желание набирать ревизии в нем, потому что готовый документ выглядит очень эстетично. Но после набора десятка ревизий и попытки что-то то в них найти, я забросил это дело, и вернулся к Excel. И вот почему.

Excel vs LaTeX

LaTeX не подходит для набора ревизий по одной простой причине: он был создан для написания научных статей, а не для баз данных.

А поскольку ревизия, по сути, база данных и есть, то для удобного поиска (мы ведь ради этого затевали индексацию, правда?), вся информация о жителях должна быть переведена в табличную форму с разбиением ФИО по отдельным столбцам, что позволит нам в пару кликов находить нужного человека (а не прыгать как сайгак по файлу с Ctrl+F в догадках, Евфимия у нас в документе записана, или Афимья). Это особенно важно, когда мы имеем дело не с мелкой деревушкой на полторы калеки, а с полновесным селом с населением 2-3 тысячи человек, либо с целой вотчиной, а то и волостью, где таких сел несколько.

Беда ещё и в том, что при индексации в Latex поиск ведётся по скомпилированному pdf-файлу. И при необходимости что-либо скорректировать придется лезть в исходный tex-файл (он, напомню, выглядит вот так):

Окно редактора LaTeX - Overleaf. В окне слева приведен исходный код документа, в окне справа - его скомпилированная версия. Если интересно, можете попробовать: https://www.overleaf.com/
Окно редактора LaTeX - Overleaf. В окне слева приведен исходный код документа, в окне справа - его скомпилированная версия. Если интересно, можете попробовать: https://www.overleaf.com/

...а затем править исходный код, после чего заново компилировать pdf. Это совершенно не нужная трата времени. Для создания красивых таблиц в LaTeX можно обзавестись костылями-конвертерами типа Pandoc, но удобства это не добавит, а времени убьете уйму.

Замечу, что удобная таблица принципиально важна, если вы занимаетесь генеалогической реконструкцией. Поэтому, чтобы не изобретать велосипед, можно взять готовый шаблон для набора. У Familio эта задача решена очень изящно. Вот тут примеры решения: (ссылка). Все возможные варианты фильтрации персон в этих шаблонах уже реализованы. Шаблоны есть практически под все виды документов. И пусть вас не пугает их кажущаяся тяжеловесность, они в разы удобнее Latex, уверяю.

Кроме этих шаблонов, для набора ревизий могу посоветовать отличный индексатор в Excel (ссылка). Мощнейший инструмент, даже встроенные проверки есть!

Excel vs Word

Кто-то скажет: «в Ворде мне набирать удобнее». А я, в свою очередь, спрошу:

Можно ли при помощи docx или pdf найти всех крестьянок с именем Анна, родившихся между 1785 и 1791 годами? Или всех мужчин, умерших в 1814-м? А вести поиск одновременно по двум именам? А по трем? Вот то-то. Дело не в том, как удобнее набирать, а в том, как удобнее искать. И для человека со средней компьютерной грамотностью лучше Excel пока ничего не придумали. Хотя технически подкованные генеалоги, возможно, со мной поспорят.

Итог

В завершение немного статистики. Набор 18 документов, содержащих около 20 тысяч имён (пример на ВГД и на Familio) занял у меня 8 месяцев. Половину времени съели проверка неточностей, сопоставление семей в разных документах (я сверял данные за три ближайших года), поиск «потеряшек» без фамилий и отчеств, анализ вариантов написания (Варлам — Харлампий, вечная путаница Натальи с Настасьей и т. д.). Да, долго. Но не надейтесь на автоматизированную проверку: машина не учтет ошибочно указанное в исповедной росписи отчество, а внезапное появление уличной фамилии поставит ее в тупик. Хотя... Нейросети уже сегодня на многое способны, а что они смогут завтра — и представить сложно! 🙂

P.S. Вы скажете: Access и его аналоги это гораздо более мощные инструменты! Но я парирую: на танке ездить по дорогам общего пользования нельзя. Поэтому Excel сегодня — оптимальный вариант.