Обогащение оцифрованных средневековых рукописей: Связь между изображением, текстом и лексическими знаниями
В последние годы исторические документы были массово оцифрованы и опубликованы в онлайновом режиме в открытых базах данных, привлекая внимание сообщества Цифровых гуманитарных наук. В результате появились большие коллекции онлайновых баз данных исторического почерка, таких как Pares, палеографические ресурсы, такие как DigiPal, гражданские научные проекты (расшифровка секретов: раскрытие рукописей средневековой Испании) и инструменты обучения цифровой палеографии (инструмент обучения и преподавания испанской палеографии в цифровой форме). В связи с этим компьютеризированные средства стали частью инструментария нынешнего специалиста по гуманитарным наукам.
Большая часть исследований в области вычислительного анализа оцифрованных исторических рукописных документов сосредоточена в палеографическом анализе:
- расшифровке,
- датировке,
- описании древних рукописей.
В этой статье я опишу текущий проект по кодированию оцифрованных средневековых испанских рукописей XIII, XIV и начала XV веков и связыванию их содержания с Центральным многоязычным хранилищем (ЦМХ)5.
Главной целью проекта является разработка онлайновой базы данных оцифрованных средневековых рукописей, которая позволит пользователям получать грамматическую и лексическую информацию с помощью факсимиле. Поиск рукописей будет полностью возможен с использованием любого из языков, интегрирующих ЦМХ.
Данный ресурс поможет лучше понять палеографические особенности средневековых рукописей, а также лингвистический и филологический анализ средневекового испанского языка. Кроме того, база данных может быть ценным источником для компьютерных исследователей, заинтересованных в автоматической обработке средневековых рукописей, поскольку данные изображений будут связаны с текстовой и лексической информацией. Насколько мне известно, такого интернет-ресурса не существует.
В этой статье я сосредоточусь на:
- описании методов транскрибирования, аннотации и кодирования рукописей;
- процессе автоматического связывания их содержания на лексическом уровне с записями ЦМХ и кодификации этих связей в модели.
Кодирование расшифровок средневековых рукописей.
Исторические разновидности испанского языка имеют важные различия не только на синтаксическом и морфологическом уровне, но и на грамматическом. Это связано с тем, что орфографические правила на испанском языке не определялись до XVIII века, что создавало серьезные трудности для понимания средневековых испанских рукописей, поскольку они существенно различаются даже в документах одного и того же периода, в основном из-за различий в почерке писцов. Средневековая орфография также не следует современным образцам, не существует в строгом смысле этого слова различных вариантов графем, а скорее сочетание факторов, которые могут объяснить определенные решения. Как упоминал Санчес-Прието, средневековые рукописи следует понимать с учетом тройной корреляции факторов:
- Палеографическое использование и форма букв.
- Идентификация букв.
- Фонетические изменения.
В этой тройственной связи заключается эволюция почерка, которая может выявить важные аспекты фонетических изменений.
По этой причине в настоящее время рукописные средневековые документы переписываются вручную с помощью компьютерных средств.
TEI является де-факто стандартом XML для представления текстов в цифровой форме. В соответствии с рекомендациями TEI, различные грамматические представления объявляются с использованием элемента в заголовке документа. Изображения слов в факсимиле сегментируются с помощью элемента, который определяет письменную поверхность как двухмерное координатное пространство, определяя зоны интереса или группируя графические изображения внутри этого пространства; и элемента, который определяет двухмерную область в пределах a. Объявления графем связаны с транскрибированным текстом с помощью данного элемента, что позволяет идентифицировать и сравнить варианты графем. Переписанные слова представлены в документе TEI с использованием данного элемента. Что приводит к автоматической генерации уникального xml:id для каждого элемента в документе TEI.
Связь между средневековыми рукописями и многоязычными лексическими ресурсами
Для того чтобы связать изображение слов в историческом разнообразии с многоязычной лексической базой данных, необходимо выполнить две операции:
- Сопоставление исторической формы слова с современным стандартом.
- Кодификация этой связи в документе.
Выводы
В этой статье я описал первые шаги на пути к созданию онлайнового ресурса оцифрованных средневековых испанских рукописей, где можно получить графемную, лексическую и текстовую информацию непосредственно из факсимильных сообщений.
Я продемонстрировал вам метод расшифровки и кодирования в TEI изображений из рукописей.
Также вы узнали о том, как средневековый испанский язык может быть связан с его современным стандартом и с остальными языками, которые интегрируют ЦМХ, что делает рукописные термины доступными для поиска на любом из этих языков.
Надеюсь, вам было интересно. Если так и есть, то отблагодарите лайками и подпиской.