4 подписчика

К открытию знаний из тайных архивов Ватикана.

In Codice Ratio - это исследовательский проект, целью которого является разработка новых методов и инструментов для поддержки анализа и обнаружения знаний из больших коллекций исторических документов. Цель состоит в том, чтобы предоставить гуманитарным наукам новые инструменты для проведения исследований на основе данных, полученных из крупных исторических источников. Палеографы и филологи могли бы проводить анализ тенденций и эволюции письменности и языков по времени и странам; историки могли бы изучать и выявлять факты и корреляции между информацией, расположенной в огромных массивах документов.

Проект сосредоточен на коллекциях Тайного архива Ватикана, одного из крупнейших и наиболее важных исторических архивов в мире. На протяженности 85 километров полок она хранит более 600 архивных фондов, содержащих исторические документы о деятельности Ватикана, такие как акты, принятые Ватиканом, бухгалтерские книги, переписка пап, начиная с VIII века. В настоящее время идет работа над сборником Ватиканских регистров, который фиксирует входящую и исходящую корреспонденцию пап: политические письма, свидетельствующие о широкой деятельности папы в церковной и мирской сферах; авторитетные мнения по правовым вопросам; документы, адресованные государям, религиозным и политическим учреждениям, разбросанным по всему миру; переписка, касающаяся сбора десятин и причитающихся церкви.

Систематическое и непрерывное сохранение этих реестров началось в средние 1 века, поэтому большинство этих документов являются рукописями. Служба начала получать цифровые изображения этих документов, но, к сожалению, для самых ранних реестров не существует полных транскрипций. Поэтому первым фундаментальным шагом в разработке любой формы анализа содержания на основе данных является выполнение расшифровки рукописей. Проблема сложна: с одной стороны, ручная расшифровка невозможна из-за объема (сотни тысяч страниц) коллекции. С другой стороны, хотя эти рукописи написаны в едином стиле, традиционное опознание текста не применяется здесь из-за нарушений написания и сокращениях.

Поскольку многие библиотеки и архивы начали переводить свои фонды в цифровой формат, было разработано несколько подходов к распознаванию рукописного текста. Поскольку сегментирование букв в тексте сложнее, чем сегментирование рукописных текстов, такие подходы, как правило, направлены на распознавание целых слов.

Из-за разнообразия и размера лексики требуется огромное количество обучающих данных, то есть сотни полностью расшифрованных страниц. Целью является создание полноценной системы, которая максимально расшифровывала бы рукописи. Для этого используется иной подход, основанный на сегментации символов. Идея заключается в управлении неточной сегментацией символов, принимая во внимание, что правильные сегменты - это те, которые приводят к последовательности символов, составляющих, скорее всего, латинское слово. Поэтому мы разработали принципиальное решение, основанное на классификаторе сложных нейросетей и статистических языковых моделях. Каждый сегмент обозначается классификатором, который распознает наиболее вероятный символ. Затем организуется последовательность сегментов в виде направленного ациклического графика: пути такого графика представляют собой возможные транскрипции для данного слова, и наиболее вероятное решение выбирается на основе статистики языка.

Стоит отметить, что по сравнению с подходом, свободным от сегментации, обучение классификатора требует маркированных примеров для ограниченного набора символов, с двойным преимуществом. Во-первых, размер обучающего набора на несколько порядков меньше, поскольку нам нужно привести примеры только для ограниченного набора символов, а не для богатого лексикона слов. Во-вторых, создать примеры намного проще, так как не требуется переписывать целые слова, и эта работа может выполняться экспертами-палеографами.

Опыт в области расшифровки рукописей заключается в следующем:

Разработано комплексное решение, основанное на современных технологиях, таких как сложная нейронная сеть, статистические модели языка, ~~краудсорсинг~~, для поддержки палеографов при расшифровке крупных тел рукописей;
Подход к Регистрам Ватикана: никогда ранее эти документы не были переписаны, они имеют беспрецедентную историческую значимость; удалось создать точную транскрипцию для 65% изображений слов.
Этот подход радикально упрощает создание учебного комплекта; в наших экспериментах учебный комплект был создан за несколько часов с участием 120 старшеклассников и с использованием всего 2 списков Регистров Ватикана;
Все материалы проекта публикуются в открытом доступе в Интернете.