Найти тему

Пример индексации метрических книг с помощью аудиосообщений

Наконец, я начала воплощать свою идею об использовании аудиосообщений в индексации. Первым делом, я опробовала эту функцию на разборе семей из Ревизских сказок, но без перспективы отправить эти тексты в справочники. Пока. А вот к метрическим книгам подход уже более серьезный: без индексации разобрать все родственные связи оказалось нереально.

Шаг первый: определиться с форматом таблиц

Для начала нужно выбрать категории данных, отображаемых в таблице. Если бы я не собиралась впоследствии формировать из этих таблиц справочники для Familio, то ограничилась бы просто датами и именами. Особенно в топку пошли бы имена всевозможных священников, проводивших таинство, которые постоянно меняли свой состав от ребенка к ребенку. 30% времени уходит на то, чтобы записать эту крестильную команду. Поэтому пока что я их не записываю, а то запал быстро иссякнет.

Для того, чтобы текстовый файл можно было открыть как таблицу, необходимо задать символ-разделитель. Аудиосообщения телеграмма и без того заполняют паузы точками, поэтому я ее и выбрала. Категории данных в моей таблице по метрикам рождения выглядят так:

Страница. Пол. Счет. Месяц. Число рождения. Число крещения. Фамилия. Имя. Статус отца. Имя отца. Статус матери. Имя матери. Статус восприемника 1. Имя восприемника 1. Статус восприемника 2. Имя восприемника 2.

Так как я выгружаю таблицы на гуглодиск в целях бэкапа, то потом немного добавляю категории в один клик - например, шифр дела и заметки.

Шаг второй: прочитать и надиктовать

Раз я уже немного поднаторела в чтении старого рукописного текста, то предварительная вычитка мне не требуется. Многие фамилии и имена я уже знаю наизусть. Диктую по одному человеку, чтобы не запутаться, по одной странице за раз. Выглядит это примерно так. Зачитываю последовательно в соответствии с выбранным форматом, проговаривая словом "точка" там, где мне нужен разделитель.

Шаг третий: формирование csv-таблиц из распознанного аудио и корректировка

При распознавании могут случаться ошибки: лишние точки, искаженные имена и звания. Такие моменты можно быстро поправить вручную при копировании текста из Телеграмма.

-2

Если изменить расширение файла с .txt на .csv и открыть тем же LibreOffice, то текст импортируется как таблица:

-3

В среднем, преобразование одной страницы с метриками до такого вида занимает менее 5ти минут.

Шаг четвёртый: преобразование csv в требуемые форматы

Этот шаг я не пока реализовывала, но проблем с ним быть не должно. В языке python огромное количество библиотек для работы как с таблицами, так и с csv. Главное, чтобы в полях была информация, а перетасовать её в нужный формат совсем несложно. Как только я доживу до этого этапа, то выложу свой парсер, но с учетом моего формата. В целом, и без всяких парсингов копипастить из таблицы в таблицу вполне удобно.

Формат записи метрики о рождении в шаблоне от Familio
Формат записи метрики о рождении в шаблоне от Familio

P.S. В шаблоне есть комментарий, что священнослужителей можно не вносить, если не хочется.