Найти тему
Bukva - всему golova

Какая связь у изображений, текстов и лексических значений?

Оглавление

Обогащение оцифрованных средневековых рукописей: Связь между изображением, текстом и лексическими знаниями

https:/cdn.pixabay.com/photo/2016/10/16/21/document-1729019_960_720.jpg
https:/cdn.pixabay.com/photo/2016/10/16/21/document-1729019_960_720.jpg

В последние годы исторические документы были массово оцифрованы и опубликованы в онлайновом режиме в открытых базах данных, привлекая внимание сообщества Цифровых гуманитарных наук. В результате появились большие коллекции онлайновых баз данных исторического почерка, таких как Pares, палеографические ресурсы, такие как DigiPal, гражданские научные проекты (расшифровка секретов: раскрытие рукописей средневековой Испании) и инструменты обучения цифровой палеографии (инструмент обучения и преподавания испанской палеографии в цифровой форме). В связи с этим компьютеризированные средства стали частью инструментария нынешнего специалиста по гуманитарным наукам.

Большая часть исследований в области вычислительного анализа оцифрованных исторических рукописных документов сосредоточена в палеографическом анализе:

  • расшифровке,
  • датировке,
  • описании древних рукописей.

В этой статье я опишу текущий проект по кодированию оцифрованных средневековых испанских рукописей XIII, XIV и начала XV веков и связыванию их содержания с Центральным многоязычным хранилищем (ЦМХ)5.

Главной целью проекта является разработка онлайновой базы данных оцифрованных средневековых рукописей, которая позволит пользователям получать грамматическую и лексическую информацию с помощью факсимиле. Поиск рукописей будет полностью возможен с использованием любого из языков, интегрирующих ЦМХ.

Данный ресурс поможет лучше понять палеографические особенности средневековых рукописей, а также лингвистический и филологический анализ средневекового испанского языка. Кроме того, база данных может быть ценным источником для компьютерных исследователей, заинтересованных в автоматической обработке средневековых рукописей, поскольку данные изображений будут связаны с текстовой и лексической информацией. Насколько мне известно, такого интернет-ресурса не существует.

https://cdn.pixabay.com/photo/2017/05/14/08/19/german-2311511_960_720.jpg
https://cdn.pixabay.com/photo/2017/05/14/08/19/german-2311511_960_720.jpg

В этой статье я сосредоточусь на:

  • описании методов транскрибирования, аннотации и кодирования рукописей;
  • процессе автоматического связывания их содержания на лексическом уровне с записями ЦМХ и кодификации этих связей в модели.

Кодирование расшифровок средневековых рукописей.

Исторические разновидности испанского языка имеют важные различия не только на синтаксическом и морфологическом уровне, но и на грамматическом. Это связано с тем, что орфографические правила на испанском языке не определялись до XVIII века, что создавало серьезные трудности для понимания средневековых испанских рукописей, поскольку они существенно различаются даже в документах одного и того же периода, в основном из-за различий в почерке писцов. Средневековая орфография также не следует современным образцам, не существует в строгом смысле этого слова различных вариантов графем, а скорее сочетание факторов, которые могут объяснить определенные решения. Как упоминал Санчес-Прието, средневековые рукописи следует понимать с учетом тройной корреляции факторов:

  1. Палеографическое использование и форма букв.
  2. Идентификация букв.
  3. Фонетические изменения.

В этой тройственной связи заключается эволюция почерка, которая может выявить важные аспекты фонетических изменений.

По этой причине в настоящее время рукописные средневековые документы переписываются вручную с помощью компьютерных средств.

TEI является де-факто стандартом XML для представления текстов в цифровой форме. В соответствии с рекомендациями TEI, различные грамматические представления объявляются с использованием элемента в заголовке документа. Изображения слов в факсимиле сегментируются с помощью элемента, который определяет письменную поверхность как двухмерное координатное пространство, определяя зоны интереса или группируя графические изображения внутри этого пространства; и элемента, который определяет двухмерную область в пределах a. Объявления графем связаны с транскрибированным текстом с помощью данного элемента, что позволяет идентифицировать и сравнить варианты графем. Переписанные слова представлены в документе TEI с использованием данного элемента. Что приводит к автоматической генерации уникального xml:id для каждого элемента в документе TEI.

https://cdn.pixabay.com/photo/2016/07/07/18/43/manuscript-1503029_960_720.jpg
https://cdn.pixabay.com/photo/2016/07/07/18/43/manuscript-1503029_960_720.jpg

Связь между средневековыми рукописями и многоязычными лексическими ресурсами

Для того чтобы связать изображение слов в историческом разнообразии с многоязычной лексической базой данных, необходимо выполнить две операции:

  1. Сопоставление исторической формы слова с современным стандартом.
  2. Кодификация этой связи в документе.

Выводы

В этой статье я описал первые шаги на пути к созданию онлайнового ресурса оцифрованных средневековых испанских рукописей, где можно получить графемную, лексическую и текстовую информацию непосредственно из факсимильных сообщений.

Я продемонстрировал вам метод расшифровки и кодирования в TEI изображений из рукописей.

Также вы узнали о том, как средневековый испанский язык может быть связан с его современным стандартом и с остальными языками, которые интегрируют ЦМХ, что делает рукописные термины доступными для поиска на любом из этих языков.

Надеюсь, вам было интересно. Если так и есть, то отблагодарите лайками и подпиской.