Найти в Дзене
XX2 ВЕК

Как ИИ может раскрыть секреты тысяч рукописных документов — от средневековых манускриптов до иероглифики

Приходилось ли вам прилагать неимоверные усилия, чтобы разобрать каракули между «морковкой» и «картошкой» в списке покупок? Скоро искусственный интеллект (ИИ) может быть в состоянии помочь вам. За последние десять лет исследователи постепенно работали над тем, как научить компьютеры читать рукописные документы. Как и в большинстве случаев с машинным обучением, компьютер получает обучающие данные: в данном случае изображения рукописного текста и подробности того, о чём в нём говорится. Затем он узнает, как отметки на каждой странице соответствуют буквам. Он узнает, что этот полукруг — это буква «c», а этот короткий вертикальный штрих — это «i», и, следовательно, это может быть, например, «рис» (rice — прим. перев.), который есть в вашем списке покупок. Никто не знает, как он это делает: машинное обучение часто представляет собой чёрный ящик. Но вполне вероятно, что он, по крайней мере частично, изучает, какие символы могут встречаться в последовательности, и таким образом определяет, чт
Оглавление
Платон, Сенека и Аристотель на иллюстрации из средневекового манускрипта около 1325 г. Изображение: The Picture Art Collection/Alamy Stock Photo
Платон, Сенека и Аристотель на иллюстрации из средневекового манускрипта около 1325 г. Изображение: The Picture Art Collection/Alamy Stock Photo

Приходилось ли вам прилагать неимоверные усилия, чтобы разобрать каракули между «морковкой» и «картошкой» в списке покупок? Скоро искусственный интеллект (ИИ) может быть в состоянии помочь вам.

За последние десять лет исследователи постепенно работали над тем, как научить компьютеры читать рукописные документы. Как и в большинстве случаев с машинным обучением, компьютер получает обучающие данные: в данном случае изображения рукописного текста и подробности того, о чём в нём говорится. Затем он узнает, как отметки на каждой странице соответствуют буквам. Он узнает, что этот полукруг — это буква «c», а этот короткий вертикальный штрих — это «i», и, следовательно, это может быть, например, «рис» (rice — прим. перев.), который есть в вашем списке покупок.

Никто не знает, как он это делает: машинное обучение часто представляет собой чёрный ящик. Но вполне вероятно, что он, по крайней мере частично, изучает, какие символы могут встречаться в последовательности, и таким образом определяет, что вы вряд ли захотите покупать «qvjx», как бы сильно данное слово ни походило на него.

Эта технология применялась к письменности многих стран и периодов, от средневековых рукописей до дневников 19-го века (кроме, быть может, списков покупок 21-го века), на языках от латыни до старофранцузского и иврита.

Поскольку технология работает на основе анализа изображений, теоретически она применима к любому письму, от египетских иероглифов до медных пластин. Спустя десять лет после первоначальной разработки становятся очевидными некоторые поистине захватывающие последствия развития методов распознавания рукописного текста (HTR).

Архивные приложения ИИ

Во-первых, это демократизирует доступ к знаниям. Оцифровка рукописей сделала коллекции многих библиотек доступными по одному нажатию кнопки (несмотря на киберпреступность). Но для того, чтобы прочитать то, о чём в них говорится, по-прежнему требуется длительное обучение, доступное только в лучших университетах (а некоторые рукописи, такие как Beneventan, способны заставить поскрипеть зубами даже аспирантов).

Образец беневентанской рукописи из Монте-Кассино. Источник: https://blog.digitizedmedievalmanuscripts.org/
Образец беневентанской рукописи из Монте-Кассино. Источник: https://blog.digitizedmedievalmanuscripts.org/

HTR имеет возможность создавать достаточно точную, машиночитаемую версию рукописи более или менее одним нажатием кнопки. Если язык по-прежнему является барьером для пользователя, расшифровку можно подвергнуть машинному переводу и предоставить работоспособную английскую (или французскую, или китайскую) версию параллельно с рукописью.

Огромное количество данных, которые эти процессы сделают доступными, имеет серьезные последствия для науки. Многие средневековые рукописи не читались со времен средневековья. В прошлом важные вопросы (например, дата создания основополагающих работ, таких как Беовульф) часто решались с помощью мельчайших фрагментов данных, таких как одиночное написание. Сейчас мы начинаем искать ответы на такие вопросы, используя наборы данных из десятков тысяч вариантов написания: с HTR это будут сотни тысяч, если не миллионы. И ответы мы получим разные.

За пределами qwerty

Данные, которые может генерировать HTR, также богаче. За последние полтысячелетия переложение средневековых текстов было существенно ограничено печатным станком и компьютерной клавиатурой.

Первый фолиант героической эпической поэмы «Беовульф», одного из текстов, которые мы можем лучше понять с помощью ИИ. Британская библиотека
Первый фолиант героической эпической поэмы «Беовульф», одного из текстов, которые мы можем лучше понять с помощью ИИ. Британская библиотека

Некоторые средневековые писцы использовали три разных формы буквы «s», но все они перепечатывались как знакомая нам змееподобная буква «s» на клавиатуре. Знаки препинания, такие как бедный punctus elevatus (который выглядит как перевёрнутая точка с запятой), пришлось модернизировать и превратить в ничто.

Поскольку HTR основан на технологии визуального распознавания, оно может распознавать любое количество буквенных начертаний, а не только сотню или около того, имеющихся на qwerty-клавиатуре, и воспроизводить их точнее, чем человек, привыкший копировать все четыре формы буквы «s» как «s».

Реализация этих потенциальных применений самого раннего письменного английского, периода до 1150 года, и является целью моего нового пилотного проекта «Ансунд» в Тринити-колледже Дублина.

Ансунд использует HTR для создания исчерпывающего цифрового корпуса древнеанглийских текстов с открытым доступом, в котором впервые будут расшифрованы все сохранившиеся древнеанглийские тексты с беспрецедентным уровнем детализации. Нам особенно не терпится увидеть сколько новых буквенных начертаний мы откроем, и собрать первые серьёзные данные о разделении слов в древнеанглийском языке (писцы не всегда ставили пробелы там, где мы могли бы ожидать).

Ansund — одна из ряда инициатив Trinity, направленных на использование новых технологий для расширения доступа к рукописям, включая Центр книги Trinity, в котором основное внимание уделяется истории написания и распространения книги. Виртуальная библиотека Тринити оцифровала более 60 рукописей и будет открыта на этой неделе в рамках симпозиума «Многие жизни средневековых рукописей».

За последний год этике и опасностям ИИ было уделено большое внимание, но его способность сделать наше культурное наследие читабельным и доступным для навигации также заслуживает внимания. Возможно, когда-нибудь в ближайшее время вы даже сможете расшифровать свои запутанные списки покупок.

Автор — Марк Фолкнер (Mark Faulkner) — доцент кафедры средневековой литературы и директор Тринити-центра книги Тринити-колледжа в Дублине.

Перевод — Андрей Прокипчук, «XX2 ВЕК».

Вам также может быть интересно: