Найти тему

Автоматическая идентификация почерка по средневековым документам.

Автоматическая идентификация человека на основе отсканированных изображений почерка в последние годы вызвала значительный исследовательский интерес, прежде всего в силу ее криминалистической применимости.

Мы рассмотрим альтернативное использование автоматической идентификации писателя для установления авторства старых рукописей для исторических исследований палеографии и кодикологии. Это дополнительная прикладная область не изучалась подробно до настоящего времени. Основная цель заключается в том, чтобы внести конкретный вклад в развитие данного направления исследований. В настоящее время в исторических исследованиях, требующих аутентификации рукописи, идентификацию почерка проводят опытные специалисты. Палеографы, которые могут идентифицировать особенности письма конкретного писца и узнать тип каллиграфии, используемый в данный исторический период. Однако, учитывая большое количество документов, хранящихся в исторических архивах, полезным инструментом для историка может стать компьютерная система, выполняющая автоматическое индексирование и поиск рукописей по стилю.

https://cdn.pixabay.com/photo/2014/01/04/13/17/paper-238462_960_720.jpg
https://cdn.pixabay.com/photo/2014/01/04/13/17/paper-238462_960_720.jpg

Система идентификации писателя выполняет индивидуальный поиск в базе данных с образцами почерка известного автора и показывает вероятный список кандидатов. Далее этот список тщательно проверяется специалистом, который принимает окончательное решение относительно личности автора исследуемого образца. Письменная проверка включает в себя индивидуальное сравнение с автоматическим решением о том, были ли эти два образца написаны одним и тем же лицом.

Два важных фактора имеются при попытке идентифицировать человека по образцам почерка: между вариантами письма от вариантов между писателями. Компьютер полностью игнорирует фактический текст, написанный в примерах.

Компьютер видит формулы (функции) документов, извлеченных из рукописных текстовых блоков и характеризующие индивидуальность писателя независимо от текстового содержания письменных образцов.

В работе использовались 1400 документов 189 авторов на разных языках и алфавитах. Занимательный исследовательский проект направлен на использование методов автоматической идентификации писателя для изучения производства и распространения рукописных текстов непосредственно до и после изобретения печати в середине XV века.

Набор данных содержит 10 английских почерков позднего средневековья (1375-1525 г. г.) с различным количеством документов на человека.

Всего имеется 70 документов, и авторство каждой рукописи было установлено профессором Линн Муни, специалистом по палеографии и кодикологии из Университета Йорка, Великобритания.

Изображения в масштабе были получены из широкого спектра источников и имеют разное разрешение. Документы сложные, почти всегда содержат не только рукописный текст, но и графические объекты. Макет документа значительно варьируется, и зачастую фон не является единообразным для всей рукописи из-за старения, пятен и грязи. В целом, это довольно сложный набор данных, который вызывает серьезные проблемы с обработкой.

Методы используют два фундаментальных источника информации, касающихся индивидуальности почерка. Во-первых, наклон почерка, кривизна и округлость, определяемые привычным захватом пера.

Во-вторых, персональный набор буквенных форм, которые писатель научился использовать под образовательным, культурным и запоминающимся влиянием, фиксируется на действующем уровне символов.

Выбранные вручную области извлекаются из исходных документов и повторно сканируются для получения примерно одинаковой высоты (50 пикселей) для рукописных линий. Повторно отсканированные изображения обрабатываются методом Otsu, после чего двоичные изображения становятся более подробными.

В этих чертах почерк воспринимается просто как картина изображения, описываемая распределениями вероятностей, которые фиксируют отличительный внешний вид письменных образцов.

В данном исследовании оценивается эффективность методов идентификации писателей, не зависящих от текста, в наборе данных по почерку, содержащем средневековые английские документы. Применяемые коэффициенты идентификации достигаются путем объединения текстурных признаков с характерным распределением. Цель состоит в разработке средства автоматической идентификации почерка, которое может помочь палеографу в решении задачи определения авторства исторических рукописей.