Автоматическая идентификация человека на основе отсканированных изображений почерка в последние годы вызвала значительный исследовательский интерес, прежде всего в силу ее криминалистической применимости.
Мы рассмотрим альтернативное использование автоматической идентификации писателя для установления авторства старых рукописей для исторических исследований палеографии и кодикологии. Это дополнительная прикладная область не изучалась подробно до настоящего времени. Основная цель заключается в том, чтобы внести конкретный вклад в развитие данного направления исследований. В настоящее время в исторических исследованиях, требующих аутентификации рукописи, идентификацию почерка проводят опытные специалисты. Палеографы, которые могут идентифицировать особенности письма конкретного писца и узнать тип каллиграфии, используемый в данный исторический период. Однако, учитывая большое количество документов, хранящихся в исторических архивах, полезным инструментом для историка может стать компьютерная система, выполняющая автоматическое индексирование и поиск рукописей по стилю.
Система идентификации писателя выполняет индивидуальный поиск в базе данных с образцами почерка известного автора и показывает вероятный список кандидатов. Далее этот список тщательно проверяется специалистом, который принимает окончательное решение относительно личности автора исследуемого образца. Письменная проверка включает в себя индивидуальное сравнение с автоматическим решением о том, были ли эти два образца написаны одним и тем же лицом.
Два важных фактора имеются при попытке идентифицировать человека по образцам почерка: между вариантами письма от вариантов между писателями. Компьютер полностью игнорирует фактический текст, написанный в примерах.
Компьютер видит формулы (функции) документов, извлеченных из рукописных текстовых блоков и характеризующие индивидуальность писателя независимо от текстового содержания письменных образцов.
В работе использовались 1400 документов 189 авторов на разных языках и алфавитах. Занимательный исследовательский проект направлен на использование методов автоматической идентификации писателя для изучения производства и распространения рукописных текстов непосредственно до и после изобретения печати в середине XV века.
Набор данных содержит 10 английских почерков позднего средневековья (1375-1525 г. г.) с различным количеством документов на человека.
Всего имеется 70 документов, и авторство каждой рукописи было установлено профессором Линн Муни, специалистом по палеографии и кодикологии из Университета Йорка, Великобритания.
Изображения в масштабе были получены из широкого спектра источников и имеют разное разрешение. Документы сложные, почти всегда содержат не только рукописный текст, но и графические объекты. Макет документа значительно варьируется, и зачастую фон не является единообразным для всей рукописи из-за старения, пятен и грязи. В целом, это довольно сложный набор данных, который вызывает серьезные проблемы с обработкой.
Методы используют два фундаментальных источника информации, касающихся индивидуальности почерка. Во-первых, наклон почерка, кривизна и округлость, определяемые привычным захватом пера.
Во-вторых, персональный набор буквенных форм, которые писатель научился использовать под образовательным, культурным и запоминающимся влиянием, фиксируется на действующем уровне символов.
Выбранные вручную области извлекаются из исходных документов и повторно сканируются для получения примерно одинаковой высоты (50 пикселей) для рукописных линий. Повторно отсканированные изображения обрабатываются методом Otsu, после чего двоичные изображения становятся более подробными.
В этих чертах почерк воспринимается просто как картина изображения, описываемая распределениями вероятностей, которые фиксируют отличительный внешний вид письменных образцов.
В данном исследовании оценивается эффективность методов идентификации писателей, не зависящих от текста, в наборе данных по почерку, содержащем средневековые английские документы. Применяемые коэффициенты идентификации достигаются путем объединения текстурных признаков с характерным распределением. Цель состоит в разработке средства автоматической идентификации почерка, которое может помочь палеографу в решении задачи определения авторства исторических рукописей.