Богатая история человечества оставила после себя огромное количество исторических документов и артефактов. Однако практически ни один из этих документов, содержащих истории и записанные события, имеющие важное значение для нашего культурного наследия, не может быть понят неспециалистами из-за изменений языка и письменности с течением времени.
Например, археологи раскопали десятки тысяч глиняных табличек из древнего Вавилона, но только несколько сотен специально подготовленных ученых могут перевести их. Подавляющее большинство этих документов никогда не было прочитано, даже если они были обнаружены в 1800-х гг. Чтобы дать дополнительную иллюстрацию проблемы, вызванной этим масштабом, в экспедиции 1851 года была собрана табличка из рассказа о Гильгамеше, но ее значение было раскрыто только в 1872 году. Эта табличка содержит предбиблейское повествование о потопе, которое имеет огромное культурное значение как предшественник повествования о Ноевом ковчеге.
Это глобальная проблема, но один из самых ярких примеров - случай с Японией. С 800 до 1900 года н.э. в Японии использовалась письменность под названием Кузусидзи, которая была исключена из учебной программы в 1900 году, когда было реформировано начальное школьное образование. В настоящее время подавляющее большинство носителей японского языка не могут читать тексты, которым более 150 лет. Объем этих текстов, более трех миллионов книг, хранящихся в хранилищах, но читаемых лишь горсткой специально подготовленных ученых, ошеломляет. Только одна библиотека оцифровала 20 миллионов страниц таких документов. Общее количество документов - включая, но не ограничиваясь ими, письма и личные дневники-оценивается более чем в один миллиард. Учитывая, что очень немногие люди могут понять эти тексты, в основном те, кто имеет степень доктора философии в классической японской литературе и японской истории, было бы очень дорого и трудоемко финансировать перевод этих документов на современный японский язык. Это мотивировало использование машинного обучения для автоматического понимания этих текстов.
Это очень трудная задача. Кузусидзи написан в сценарии, который существенно отличается от современного японского языка, что затрудняет даже базовое распознавание для современного японца. Однако после того, как Кузусидзи был преобразован в современный шрифт, он читается большинством людей, свободно владеющих японским языком. Тем не менее, некоторые трудности остаются из-за изменений в грамматике и лексике.
Учитывая его важность для японской культуры, проблема использования компьютеров для помощи в распознавании Кузусидзи была широко изучена благодаря использованию различных методов глубокого обучения и компьютерного зрения. Однако эти модели не смогли добиться высоких показателей по распознаванию Кузусидзи. Это было вызвано недостаточным пониманием японской исторической литературы в сообществе оптического распознавания символов (OCR) и отсутствием высококачественных стандартизированных наборов данных.
Есть несколько причин, по которым распознование Кузусидзи является сложной задачей:
• Важно учитывать как локальный, так и глобальный контекст. В связи с тем, что некоторые символы написаны контекстуально зависимым образом, важно учитывать несколько символов при классификации, а не рассматривать каждый символ по отдельности.
• Общее количество символов в словаре очень велико. В частности, набор данных NIJL-CODH содержит более 4300 символов, в то время как на самом деле их гораздо больше. Кроме того, набор данных следует за длиннохвостым распределением,поэтому есть много символов, которые появляются только несколько раз или даже один раз в наборе данных, который содержит 44 книги.
• Многие символы могут быть написаны несколькими способами, основанными на Хентайгане. Хентайгана - это старый способ написания хираганы или японских фонетических символов с той характеристикой, что сегодня многие символы могут быть сопоставлены одному символу. Концепция Хентайганы представляется трудной для понимания современными японскими читателями.
• Тексты Кузусидзи часто пишутся вместе с иллюстрациями и сложными фоновыми рисунками, которые часто трудно четко отделить от текста. Они распространены потому, что самой популярной печатной системой в дореволюционной Японии была ксилография, которая включает в себя вырезание целого куска дерева вместе с иллюстрациями. Поэтому макет страницы может быть сложным и художественным, и не всегда его легко представить в виде последовательности.
• Чирасигаки был методом письма, популярным в дореволюционном японском языке из-за эстетической привлекательности текста. Этот стиль письма был распространен в личных письмах и стихах. Когда люди читали эти документы, они решали, с чего начать чтение, основываясь на размере символов и темноте чернил. Это одна из причин, почему обычные модели последовательностей не имеют возможности хорошо работать со многими документами Кузусидзи.
KuroNet
KuroNet - это модель транскрипции Кузусидзи, которую я разработал вместе со своими коллегами Тарин Клануват и Асанобу Китамото из центра открытых данных ROIS-DS в области гуманитарных наук при Национальном институте информатики в Японии. Метод KuroNet мотивирован идеей совместной обработки всей страницы текста с целью захвата как долгосрочных, так и локальных зависимостей. KuroNet передает изображения, содержащие целую страницу текста, через остаточную архитектуру U-Net (FusionNet), чтобы получить представление объекта. Однако общее число классов символов в нашем наборе данных относительно велико и составляет более 4300. Поэтому мы обнаружили, что предсказание точного символа в каждой позиции было слишком дорогостоящим с точки зрения вычислений, и в надежде решить эту проблему мы ввели аппроксимацию, которая первоначально оценивает, содержит ли пространственное положение символ. Оттуда он вычисляет только относительно дорогой классификатор символов в позициях, которые содержат символы, согласно основной истине. Эта техника, которая является примером принуждения учителя, помогает значительно снизить использование памяти и вычислений.
Мы также исследовали использование увеличения объема данных для повышения производительности обобщения, что, как известно, особенно важно для глубокого обучения, когда объем помеченных данных ограничен. Мы исследовали вариант регуляризатора смешивания, в котором мы интерполировали небольшое количество в направлении случайных различных примеров, сохраняя при этом исходную метку. Многие книги написаны на относительно тонкой бумаге, поэтому содержание соседней страницы часто слабо просматривается через бумагу. Изображения, полученные с помощью Mixup, выглядят несколько похожими на изображения, на которых слабо виден контент соседней страницы. Таким образом, Mixup может иметь дополнительное преимущество, помогая стимулировать модель игнорировать соседнюю страницу.
Для получения дополнительной информации о KuroNet, пожалуйста, ознакомьтесь с нашей работой KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning, которая была принята на Международную конференцию по анализу и распознаванию документов 2019 года (ICDAR).
KuroNet может транскрибировать всю страницу Кузусидзи со средним временем 1,2 секунды на страницу, включая конвейер постобработки, который не был тщательно оптимизирован. Несмотря на то, что производительность все еще сильно варьируется между книгами, мы обнаружили, что ксилографические печатные книги периода Эдо, 17-19 века, это те, где KuroNet работает хорошо. Мы обнаружили, что модель борется с необычно большими и редкими символами. Кроме того, мы оценили модель на удерживаемых страницах из различных книг и обнаружили, что самыми плохими книгами были словари, содержащие много необычных символов, и поваренная книга с большим количеством иллюстраций и необычных макетов.
Конкурс распознования Каггла Кузусиджи
В то время как KuroNet достигла самых современных результатов на момент своего развития и была опубликована на конференции высшего уровня по анализу и признанию документов, мы хотели открыть это исследование для более широкого сообщества. Мы сделали это отчасти для того, чтобы стимулировать дальнейшие исследования Кузусидзи и выявить пути, в которых KuroNet может быть недостаточным.
В конечном счете, после 3 месяцев соревнований, с 293 командами, 338 участниками и 2652 записями, победитель получил оценку F1 в размере 0,950. Когда мы оценили KuroNet на той же самой установке, мы обнаружили, что он достиг рейтинга F1 0,902, что поставило бы его на 12-е место, что, хотя и приемлемо, остается значительно ниже самых эффективных решений.
Есть несколько важных уроков, которые мы извлекли из проведения этого конкурса Каггла:
• Некоторые существующие алгоритмы обнаружения объектов довольно хорошо справляются с этой задачей, даже если они используются “из коробки". Например, более быстрый R-CNN и каскадный R-CNN дали отличные результаты без модификации или каких-либо специфических для Кузуси методов. Учитывая, насколько сильно отличаются страницы Кузусидзи от обычных задач обнаружения объектов, было довольно удивительно, что они все еще хорошо работают.
• В то же время другие методы плохо работают при использовании без модификации. Например, вы смотрите только один раз, выполненный довольно плохо, несмотря на значительные усилия. Другие методы, использующие CenterNet, работали хорошо, но требовали больше усилий и специфичной для домена настройки, чтобы начать работать.
• Несколько ведущих подходов имели модели, которые выполняли обнаружение и классификацию совместно. Те, которые не использовали умные методы для включения окружающих персонажей в их классификационный конвейер.
• Немногие из лучших решений использовали языковые модели или пытались рассматривать символы как последовательности.
Будущие исследования
Работа, проделанная CODH, уже привела к существенному прогрессу в расшифровке документов Кузусиджи, однако общая проблема раскрытия знаний об исторических документах далека от решения.
Даже в области транскрибирования Кузусидзи все еще существуют значительные открытые проблемы. Одна из проблем заключается в том, что помеченные обучающие данные, как правило, поступают с целых страниц текста, с акцентом на документы определенного периода времени (в основном позднего периода Эдо, 17-19 века). Однако существует множество других видов Кузусиджи текст, что человек, возможно, захотите, чтобы расшифровать. Некоторые документы написаны от руки, в то время как другие печатаются (как правило, с использованием деревянных блоков). Некоторые типы страниц имеют нетипичный или редко встречающийся контент - например, титульные листы книг. Я познакомился в Японии с одним человеком, который путешествовал по горам и нашел каменный дорожный знак, написанный на языке Кузусидзи, и хотел его расшифровать. Обобщение этих очень разных видов данных, особенно когда меняется среда для записи, может быть довольно трудным, хотя это стало объектом повышенного внимания как область исследований в области машинного обучения. Инвариантная методика минимизации риска фокусируется именно на этой проблеме.
Еще одна интересная открытая проблема возникает из-за того, что все предложенные методы только преобразуют документы Кузусидзи в современную японскую письменность. Это делает отдельные символы узнаваемыми, но общий текст все равно довольно трудно читать. Из разговоров с носителями японского языка у меня сложилось впечатление, что для нормального японца читать можно, но в меру труднее, чем читать Шекспира для современных носителей английского языка. Таким образом, захватывающей и очень открытой проблемой машинного обучения будет преобразование старого языка в словарь и грамматику современного японского языка. Эта проблема вполне доступна, поскольку существует множество случаев, когда устаревшее слово можно заменить более современным, но она также очень глубока, поскольку правильный перевод поэзии и красивой прозы с ее многочисленными нюансами может быть почти невозможен. Кроме того, отсутствие (или небольшой объем) четко выровненных парных данных из классического и современного японского языков может мотивировать использование последних исследований по неконтролируемому и малому ресурсу машинного перевода.
Я считаю, что это одно из наиболее эффективных приложений для машинного обучения сегодня, и достижение прогресса потребует сотрудничества между теми, кто обладает как предметно-специфическими знаниями в области исторических документов, прикладными исследователями МО, так и исследователями базовых алгоритмов МО. Это должно быть междисциплинарное усилие. Историки могут помочь выявить наиболее значимые подзадачи и интуитивно определить, действительно ли метрики полезны. Прикладные исследователи МО могут построить модели для оптимизации этих показателей и определить, где сегодняшние алгоритмы не дотягивают. Основные исследователи мл могут помочь сделать алгоритмы лучше. Например, наша работа по японскому языку требует более совершенных алгоритмов для обучения с небольшим отрывом, а также лучшего обобщения на изменяющиеся среды, что является все более широко изучаемой проблемой в исследовательском сообществе МО.
В то же время это должны быть международные усилия. Недоступные документы - это проблема для исторических языков всего мира, и только привлекая исследователей со всего мира, мы можем надеяться на прогресс. Важно также взаимодействовать с коренными общинами, которые имеют большое историческое наследие, но могут быть недостаточно представлены в некоторых областях исследований.
Ценность исторического и литературного образования во многих странах мира сильно недооценивается. В нашем мире растущего обмана и фальшивых новостей более глубокое знание истории является более важным, чем когда-либо. Сделать исторический документ более доступным и понятным может помочь повысить осведомленность о важности этого образования, позволяя студентам взаимодействовать с гораздо большим объемом содержания и более органичным и доступным способом. В случае Японии я надеюсь, что наша работа позволит студентам и широкой публике читать исторические истории так, как они должны были быть прочитаны - наряду с богатыми иллюстрациями и в доступном стиле письма. Я также надеюсь, что это позволит им выбирать между гораздо большим разнообразием контента, включая боевик, комедию и приключения, что сделает эти исследования гораздо более приятными и доступными.