41 подписчик

Какая связь у изображений, текстов и лексических значений?

1 ноября 20191 ноя 2019

304

4 мин

Обогащение оцифрованных средневековых рукописей: Связь между изображением, текстом и лексическими знаниями В последние годы исторические документы были массово оцифрованы и опубликованы в онлайновом режиме в открытых базах данных, привлекая внимание сообщества Цифровых гуманитарных наук. В результате появились большие коллекции онлайновых баз данных исторического почерка, таких как Pares, палеографические ресурсы, такие как DigiPal, гражданские научные проекты (расшифровка секретов: раскрытие рукописей средневековой Испании) и инструменты обучения цифровой палеографии (инструмент обучения и преподавания испанской палеографии в цифровой форме). В связи с этим компьютеризированные средства стали частью инструментария нынешнего специалиста по гуманитарным наукам. Большая часть исследований в области вычислительного анализа оцифрованных исторических рукописных документов сосредоточена в палеографическом анализе: В этой статье я опишу текущий проект по кодированию оцифрованных средневековых

Оглавление

Обогащение оцифрованных средневековых рукописей: Связь между изображением, текстом и лексическими знаниями
В этой статье я сосредоточусь на:
Кодирование расшифровок средневековых рукописей.

Обогащение оцифрованных средневековых рукописей: Связь между изображением, текстом и лексическими знаниями

В последние годы исторические документы были массово оцифрованы и опубликованы в онлайновом режиме в открытых базах данных, привлекая внимание сообщества Цифровых гуманитарных наук. В результате появились большие коллекции онлайновых баз данных исторического почерка, таких как Pares, палеографические ресурсы, такие как DigiPal, гражданские научные проекты (расшифровка секретов: раскрытие рукописей средневековой Испании) и инструменты обучения цифровой палеографии (инструмент обучения и преподавания испанской палеографии в цифровой форме). В связи с этим компьютеризированные средства стали частью инструментария нынешнего специалиста по гуманитарным наукам.

Большая часть исследований в области вычислительного анализа оцифрованных исторических рукописных документов сосредоточена в палеографическом анализе:

расшифровке,
датировке,
описании древних рукописей.

В этой статье я опишу текущий проект по кодированию оцифрованных средневековых испанских рукописей XIII, XIV и начала XV веков и связыванию их содержания с Центральным многоязычным хранилищем (ЦМХ)5.

Главной целью проекта является разработка онлайновой базы данных оцифрованных средневековых рукописей, которая позволит пользователям получать грамматическую и лексическую информацию с помощью факсимиле. Поиск рукописей будет полностью возможен с использованием любого из языков, интегрирующих ЦМХ.

Данный ресурс поможет лучше понять палеографические особенности средневековых рукописей, а также лингвистический и филологический анализ средневекового испанского языка. Кроме того, база данных может быть ценным источником для компьютерных исследователей, заинтересованных в автоматической обработке средневековых рукописей, поскольку данные изображений будут связаны с текстовой и лексической информацией. Насколько мне известно, такого интернет-ресурса не существует.

В этой статье я сосредоточусь на:

описании методов транскрибирования, аннотации и кодирования рукописей;
процессе автоматического связывания их содержания на лексическом уровне с записями ЦМХ и кодификации этих связей в модели.

Кодирование расшифровок средневековых рукописей.

Исторические разновидности испанского языка имеют важные различия не только на синтаксическом и морфологическом уровне, но и на грамматическом. Это связано с тем, что орфографические правила на испанском языке не определялись до XVIII века, что создавало серьезные трудности для понимания средневековых испанских рукописей, поскольку они существенно различаются даже в документах одного и того же периода, в основном из-за различий в почерке писцов. Средневековая орфография также не следует современным образцам, не существует в строгом смысле этого слова различных вариантов графем, а скорее сочетание факторов, которые могут объяснить определенные решения. Как упоминал Санчес-Прието, средневековые рукописи следует понимать с учетом тройной корреляции факторов:

Палеографическое использование и форма букв.
Идентификация букв.
Фонетические изменения.

В этой тройственной связи заключается эволюция почерка, которая может выявить важные аспекты фонетических изменений.

По этой причине в настоящее время рукописные средневековые документы переписываются вручную с помощью компьютерных средств.

TEI является де-факто стандартом XML для представления текстов в цифровой форме. В соответствии с рекомендациями TEI, различные грамматические представления объявляются с использованием элемента в заголовке документа. Изображения слов в факсимиле сегментируются с помощью элемента, который определяет письменную поверхность как двухмерное координатное пространство, определяя зоны интереса или группируя графические изображения внутри этого пространства; и элемента, который определяет двухмерную область в пределах a. Объявления графем связаны с транскрибированным текстом с помощью данного элемента, что позволяет идентифицировать и сравнить варианты графем. Переписанные слова представлены в документе TEI с использованием данного элемента. Что приводит к автоматической генерации уникального xml:id для каждого элемента в документе TEI.

https://cdn.pixabay.com/photo/2016/07/07/18/43/manuscript-1503029_960_720.jpg

Связь между средневековыми рукописями и многоязычными лексическими ресурсами

Для того чтобы связать изображение слов в историческом разнообразии с многоязычной лексической базой данных, необходимо выполнить две операции:

Сопоставление исторической формы слова с современным стандартом.
Кодификация этой связи в документе.

Выводы

В этой статье я описал первые шаги на пути к созданию онлайнового ресурса оцифрованных средневековых испанских рукописей, где можно получить графемную, лексическую и текстовую информацию непосредственно из факсимильных сообщений.

Я продемонстрировал вам метод расшифровки и кодирования в TEI изображений из рукописей.

Также вы узнали о том, как средневековый испанский язык может быть связан с его современным стандартом и с остальными языками, которые интегрируют ЦМХ, что делает рукописные термины доступными для поиска на любом из этих языков.

Надеюсь, вам было интересно. Если так и есть, то отблагодарите лайками и подпиской.