Найти тему
Bukva - всему golova

Как нейронные сети могут помочь в разборе средневековых рукописей?

Оглавление

Идентификация шрифта в средневековых латинских рукописях с использованием конволуальных нейронных сетей

https://cdn.pixabay.com/photo/2014/11/26/23/43/manuscript-547042_960_720.jpg
https://cdn.pixabay.com/photo/2014/11/26/23/43/manuscript-547042_960_720.jpg

В палеографии ученые изучают историю почерка - важнейший аспект истории книги и рукописного дела.

В палеографии традиционно доминируют экспертные подходы, основанные на мнениях небольшой группы высококвалифицированных специалистов. Они приобрели ряд экспертных навыков в результате годичного обучения, например, умение распознавать почерк или приписывать его конкретному человеку. Эти знания по-прежнему очень трудно выразить в явной форме, чтобы поделиться ими с другими. Поэтому палеографы проявляют все больший интерес к методам цифрового моделирования для создания и распространения палеографических знаний.

Важной задачей палеографии является классификация типов шрифтов, особенно сейчас, когда электронные библиотеки собирают репродукции средневековых рукописей, часто с дефицитом метаданных.

Умение распознать тип сценария таких исторических артефактов имеет решающее значение на сегодняшний день, локализовать или (полу)автоматически расшифровать их. Сегодня в своей статье я расскажу вам об идентификации шрифтов для средневековых латинских рукописей (примерно 500-1600 гг. н.э.) и о возможностях достаточно точной, значимой автоматической классификации.

Классификация средневековых рукописей была в центре внимания недавнего конкурса КЛСР (Классификация латинских средневековых рукописей).

Для выполнения этой общей задачи организаторы выпустили набор учебных данных, включающий 2000 фотографий (в оттенках серого, 300 точек на дюйм) с копиями страниц, взятых из латинских рукописей, которые были разделены на 12 классов по типу письма, включая урожай, каролину, текстуализм и гуманистическое письмо, а также более сложные для разграничения категории "курсива или (полу)гибрида". Участвующие команды должны были подать отдельное заявление, в котором они могли классифицировать невидимые изображения и оценить расстояние между ними. Затем организаторы применяли полученные материалы к 1000-2000 тестовым изображениям и оценивали их эффективность с использованием различных схем оценки. Я освещу отправку сценария DeepScript на конкурс КЛСР. Результаты конкурса официально опубликованы 26 октября 2016 года. DeepScript занял первое место по задаче 2, т.е. "четкой" классификации смешанных изображений сценариев. Поскольку правда и результаты были опубликованы совсем недавно, я ограничусь общим обсуждением подхода; окончательный вариант и презентация данного документа будут дополнены информацией и результатами тестирования.

Представление DeepScript основывается на последних достижениях в области компьютерного зрения, где использование так называемых "глубоких" нейронных сетей недавно привело к резкому прорыву в современном уровне классификации изображений. Нейронные сети, применяемые в компьютерном зрении, обычно бывают сложными: они скользят по изображениям небольшими "фильтрами" (детекторами характеристик), делая сеть устойчивой к небольшим переводам объектов. В сетях используется множество "слоев" таких функциональных детекторов, где выходной сигнал одного функционального детектора всегда поступает на следующий. Использование такого стека слоев выгодно, так как эта "глубокая архитектура" позволяет алгоритмам моделировать особенности возрастающей сложности: в первых слоях сети обнаруживаются очень грубые и примитивные формы ("края"); только на более высоких уровнях сети эти примитивы объединяются в более сложные, абстрактные визуальные схемы (например, целые грани). Эти нейронные сети лежат в основе, например, современных алгоритмов проверки лица на сайтах социальных сетей, таких как Facebook.

Нейронные сети состоят из миллионов параметров, которые необходимо оптимизировать.

Для этого имеющиеся учебные данные разделены на набор учебных изображений и меньший набор учебных изображений (соответственно, около 1800 и 200 изображений): первый используется для оптимизации параметров сети во время обучения, второй используется для мониторинга производительности сети. Использование данных разработки необходимо для того, чтобы избежать "переустановки": сеть может начать "запоминать" изображения тренировок, чтобы получить точные прогнозы для данных тренировок, но не может более обобщать их должным образом для новых, невидимых изображений. Используя набор средств разработки, можно остановить оптимизацию сети, если ее прогнозы по развитию данных больше не будут улучшаться в качестве. Только на этом этапе алгоритм оценивается на реальных тестовых изображениях.

Современные нейронные сети обычно обучают работе с сотнями тысяч обучающих изображений.

В области данных о культурном наследии общая проблема заключается в том, что большинство наборов данных гораздо меньше, и КЛСР не является исключением, поэтому опасность их переоснащения гораздо выше. Поэтому поступили следующим образом: большое разрешение для каждого тренировочного снимка было уменьшено наполовину. Далее выбираем случайные квадратные кадры или фрагменты изображения (150x150 пикселей) и обучаем алгоритмы работы с партиями этих культур. Этот подход является грубым, но вместе с тем инновационным, поскольку люди не прилагают усилий для извлечения более конкретных областей интереса из изображений, таких как отдельные строки, слова или символы. Чтобы избежать переутомления, также применили аугментацию: каждая тренировочная культура будет "искажена" случайным изменением уровня масштабирования, севооборота и перевода. Внедрение такого шума на входе является общей стратегией борьбы с переоборудованием.

После каждого сдвига оценивали текущее состояние сети, проверяя точность классификации на разрабатываемых снимках: случайным образом отбирали по 30 культур с каждого снимка (без увеличения) и рассчитывали среднюю вероятность для каждого выходного класса. Полный образ был присвоен классу с наибольшей средней вероятностью. Наилучшая точность валидации, которую достигли, составила 91,17%, используя архитектуру сети из 14 слоев, вдохновленную известной оксфордской сетью VGG. Ручная классификация изображений КЛСР была основана на морфологических различиях и аллограммах, как они определены в стандартных работах на латинице.

https://cdn.pixabay.com/photo/2016/07/19/09/11/the-middle-ages-1527809_960_720.jpg
https://cdn.pixabay.com/photo/2016/07/19/09/11/the-middle-ages-1527809_960_720.jpg

Существуют интересные методы визуализации того, к каким шаблонам чувствительна обучаемая сеть.

Используя принцип градиентного подъема, начинаем с изображения случайного шума и подаем его на один из фильтров на последнем изогнутом слое: в течение 3000 итераций меняем изображение таким образом, чтобы оно максимально активизировало данный фильтр. Очевидно, что сеть улавливает соответствующие закономерности. Эти визуализации непосредственно касаются вычислительного "черного ящика" в цифровых гуманитарных науках и, в особенности, цифровой палеографии.

Я читал и о дальнейших планах в этой сфере, вроде предложений новых перспектив графического определения классов сценариев в традиционной палеографии. Думаю, тема очень интересная, и, если я увижу какую-нибудь активность с вашей стороны, дорогие читатели, то скорее всего напишу дополнения!

А пока у меня все, ставьте лайки и подписывайтесь на канал!