Найти в Дзене
Bukva - всему golova

Дискриминация средневековых рукописных текстов и история латинских надписей

Оглавление

Анализ изображений документов - это особая область исследований, которая находится между анализом изображений, распознаванием образов и гуманитарными науками, особенно наукой, изучающей историю текстов.

В настоящее время эта область научных исследований расширяется по мере оцифровки древних рукописей культурного наследия, в частности в библиотеках и национальных архивах и т.д.

https://www.pinterest.ru/pin/16888567341674509/
https://www.pinterest.ru/pin/16888567341674509/

Эта революция стимулирует новые области исследований, такие как автоматическое извлечение информации для повышения доступности и правильного индексирования оцифрованных документов. Среди метаданных, которые могут быть извлечены, стили написания привносят дополнительную информацию в содержание текстов.

Текстовый макет представляет собой вводимую автором сознательно или бессознательно часть информации, которая может быть использована на сегодняшний день для проверки подлинности или индексации документа.

Макет печатного документа характеризуется его физической структурой и типографией символов (типография, размер, шрифт и т.д.), в то время как представление древней рукописи скрывает другие уровни интерпретации, такие как личный стиль автора, используемая каллиграфия и внешний вид документа.

Филология - это область исследований, изучающая древние языки, их грамматику, историю и фонетику слов с целью образования и понимания древних текстов.

Филология в основном основана на содержании текстов и касается как рукописных текстов, так и печатных документов. Палеография является дополнительной дисциплиной филологии, которая собирает рукописный корпус текстов и знания, накопленные на этих документах. В палеографии изучается расположение старых рукописей и их эволюция, в то время как классическая филология изучает содержание текстов, языки и их эволюцию.

Целью палеографической науки в основном является изучение правильной расшифровки старых письмен и изучение истории передачи древних текстов.

Палеография - это также изучение стиля письма, независимо от авторского личного стиля письма, который может помочь на сегодняшний день и/или расшифровать старинные манускрипты.

https://www.pinterest.ru/pin/795026140453815665/
https://www.pinterest.ru/pin/795026140453815665/

История латинских надписей

Я кратко представляю различные латинские письмена и их эволюцию в Европе. С конца прошлого века до н.э. письмена преображались в соответствии с обычаями. С VIII-XII веков Каролина была широко распространена на Западе.

Она эволюционировала в неровные формы, чтобы родить в Англии готическую письменность, которая распространилась по всей Северной Европе.

В конце XIV века первые гуманисты возродили Кэролайн и создали гуманистическую систему. Именно это письмо было принято к печати и легло в основу наших современных произведений.

Для палеографов переход от одной письменности к другой был осуществлен не радикальным образом, а медленной и прогрессивной эволюцией, что объясняет сложность категорической идентификации той или иной работы. Например, мы наблюдаем тексты, написанные в каролинском стиле и содержащие элементы готического письма. Таким образом, палеограф должен быть способен точно количественно определить долю смеси произведений семейства. Например, класс протоготического письма - это промежуточный стиль письма между каролинским и готическим письмом. Начиная с XII века, количество наблюдаемых стилей письма в Европе исключительно возросло. Следовательно, работа палеографов становится все более сложной, особенно с развитием каролины в готическую и разделением готики на подсемьи, такие как курсивная готика, текстуалистическая готика и др. Как и эволюция каролины в готику, эволюция в скорописную готику, затем в катардическую готику, а затем в текстуальную готику, была осуществлена постепенно.

Диверсификация писательских семей в Европе росла вплоть до эпохи Возрождения и сопровождалась развитием письменности в каждой большой готической семье.

Современное состояние

Сейчас возможно найти несколько работ по определению характеристик письменных работ для различных приложений, таких как проверка и аутентификация автора, предварительная классификация письменных работ с точки зрения удобочитаемости для лучшего распознавания в процессе автоматической сортировки почты и проверок. Все эти исследования связаны с нашей проблемой, но не все они непосредственно пригодны для повторного использования в палеографических исследованиях.

Распределение направлений изображений использовалось для определения различных стилей письменности с целью их распознавания.

Фрактальный анализ измеряет степень автосимметрии изображения; это хорошая мера стиля писателя, которая может служить для классификации записей в соответствии с их читаемостью и для выявления модификации писателя для ранней диагностики болезни Альцгеймера.

Фрактальная индикация также может характеризовать различные алфавиты в печатных текстах.

Характеризует различные стили текста, используя показатели сложности, начиная от формы, разборчивости и компактности независимо от используемого алфавита. Можно сослаться на другие произведения, которые могут быть повторно использованы для признания средневекового письма, такие как распознавание шрифтов (слов в конкретном алфавите) в многоязычных документах. В этих работах используется схожесть графем, текстура, анализ проекционного профиля и др. Система палеографических осмотров (SPI) представляет собой единственное предварительное решение для реализации автоматической системы помощи в палеографии.

Это локальный подход, который пытается воспроизвести работу палеографов. Метод состоит в том, чтобы вручную изолировать репрезентативные символы письма и сравнить их с эталонными символами из палеографической базы данных, помеченной вручную. При сравнении используется касательное расстояние и правило k ближайшего соседа (узелка), которое дает k символов ближайшие ссылки на новый символ. Система SPI используется только для тестирования 37 документов и 4 изображений на стили, а некоторые изображения взяты из одних и тех же документов, что не являются ни репрезентативными, ни достаточными.