Впервые с помощью метода машинного обучения удалось выявить греческие слова на томограммах хрупких свернутых папирусов.
21-летний студент, изучающий компьютерные науки, выиграл всемирный конкурс на лучшее прочтение первого текста в карбонизированном свитке из древнеримского города Геркуланум, который был нечитаем с момента извержения вулкана в 79 г. н.э. - того самого, который похоронил соседние Помпеи. Это открытие может открыть сотни текстов из единственной нетронутой библиотеки, сохранившейся со времен греко-римской античности.
Люк Фарритор, работающий в Университете Небраски-Линкольна, разработал алгоритм машинного обучения, который позволил обнаружить греческие буквы на нескольких строках свернутого папируса, включая πορϕυρας (porphyras), что означает "пурпурный". Фарритор использовал тонкие, мелкомасштабные различия в текстуре поверхности для обучения нейронной сети и выделения чернил.
"Когда я увидела первое изображение, я была потрясена", - говорит Федерика Николарди, папиролог из Неаполитанского университета (Италия) и член научной комиссии, рассматривавшей результаты работы Фарритора. "Это была такая мечта", - говорит она. Теперь "я действительно могу увидеть что-то изнутри свитка".
Сотни свитков были погребены вулканом Везувий в октябре 79 г. н.э., когда извержение засыпало Геркуланум 20-метровым слоем вулканического пепла. Первые попытки открыть папирусы привели к образованию беспорядочных фрагментов, и ученые опасались, что оставшиеся свитки никогда не удастся развернуть или прочитать. "Это такие сумасшедшие предметы. Они все смяты и раздавлены", - говорит Николарди.
Конкурс "Везувий" предусматривает ряд наград, главная из которых - прочтение четырех или более отрывков из свернутого свитка - составляет 700 000 долларов США. 12 октября организаторы объявили, что Фарритор выиграл приз "первые буквы" в размере 40 тыс. долл. за прочтение более 10 знаков на участке папируса площадью 4 кв. см. Юссеф Надер, аспирант Свободного университета Берлина, получил 10 тыс. долл. за второе место.
РОСКОШНАЯ БИБЛИОТЕКА
По словам Теи Соммершильд, историка Древней Греции и Рима из Венецианского университета Ка' Фоскари (Италия), увидеть наконец буквы и слова внутри свитка - "чрезвычайно увлекательно". Свитки были обнаружены в XVIII веке, когда рабочие наткнулись на остатки роскошной виллы, которая, возможно, принадлежала семье тестя Юлия Цезаря. Расшифровка папирусов, по словам Соммершильда, может "произвести революцию в наших знаниях о древней истории и литературе". Большинство известных сегодня классических текстов являются результатом многократного копирования переписчиками на протяжении столетий. В отличие от них, в библиотеке Геркуланума хранятся произведения, не известные ни по каким другим источникам, непосредственно от авторов.
До сих пор исследователи могли изучать только открытые фрагменты. Удалось обнаружить несколько латинских произведений, но большинство из них содержат греческие тексты, относящиеся к эпикурейской философской школе. Среди них есть фрагменты книги "О природе", написанной самим Эпикуром, а также работы малоизвестного философа Филодема на такие темы, как пороки, музыка, риторика и смерть. Высказывались предположения, что библиотека могла когда-то быть его рабочей коллекцией. Однако более 600 свитков, большинство из которых хранятся в Национальной библиотеке в Неаполе, а также несколько свитков в Великобритании и Франции, остаются нетронутыми и нераспечатанными. И еще больше папирусов может быть найдено на нижних этажах виллы, которые еще не раскопаны.
Брент Силз (Brent Seales), ученый-компьютерщик, участвовавший в организации проекта Vesuvius Challenge, и его команда потратили годы на разработку методов "виртуального разворачивания" исчезающе тонких слоев с помощью рентгеновской компьютерной томографии (КТ) и их визуализации в виде серии плоских изображений. В 2016 г. Силз, работающий в Университете Кентукки в Лексингтоне, сообщил, что с помощью этой методики ему удалось прочитать обугленный свиток из Эн-Геди в Израиле, обнаружив в нем разделы Книги Левит - части еврейской Торы и христианского Ветхого Завета, - написанные в III или IV веке нашей эры. Но чернила на свитке из Эн-Геди содержат металл, поэтому они ярко светятся на томограммах. Чернила на более древних геркуланумских свитках - углеродные, по сути, древесный уголь и вода, они имеют ту же плотность на сканах, что и папирус, на котором они лежат, поэтому они вообще не видны.
Силз понял, что даже при отсутствии разницы в яркости томограммы могут уловить крошечные различия в текстуре, позволяющие выделить участки папируса, покрытые чернилами. Чтобы доказать это, он обучил искусственную нейронную сеть читать буквы на рентгеновских снимках вскрытых фрагментов Геркуланума. Затем, в 2019 году, он перевез два неповрежденных свитка из Института Франции в Париже в Diamond Light Source, синхротронную рентгеновскую установку вблизи Оксфорда (Великобритания), чтобы отсканировать их с самым высоким разрешением (4-8 мкм на элемент трехмерного изображения, или воксел).
Однако прочтение неповрежденных свитков все еще оставалось сложной задачей, поэтому команда выложила все свои сканы и код в открытый доступ и запустила проект Vesuvius Challenge.
"Мы все согласились с тем, что лучше быстрее перейти к чтению того, что находится внутри, чем пытаться сохранить все в тайниках", - говорит Силз.
Вскоре около 1500 команд обсуждали и сотрудничали через геймерскую чат-платформу Discord. Призы разрабатывались поэтапно, и по мере достижения каждого этапа код победителя выпускался для всех желающих. Фарритор, который всегда интересовался историей и в детстве учил латынь, с самого начала включился в работу.
Параллельно команда Силса работала над виртуальным разворачиванием, предоставляя участникам конкурса для анализа изображения сплющенных фрагментов. Ключевой момент наступил в конце июня, когда один из участников обратил внимание на то, что на некоторых изображениях чернила иногда видны невооруженным глазом в виде едва заметной текстуры, которую вскоре окрестили "треском". Фарритор сразу же сосредоточился на этом потрескивании, ища дальнейшие намеки на буквы.
Однажды вечером в августе он был на вечеринке, когда получил сообщение о выходе свежего сегмента с особенно заметным потрескиванием. Подключившись через телефон, он запустил свой алгоритм на новом изображении. Через час, идя домой, он достал телефон и увидел на экране пять букв.
"Я прыгал от радости", - говорит он. "Боже мой, это действительно работает".
После этого потребовалось всего несколько дней, чтобы доработать модель и определить десять букв, необходимых для получения приза.
Взволнованы и папирологи. В открытых геркуланумских свитках слово "пурпур" еще не читалось. Пурпурный краситель был очень востребован в Древнем Риме и изготавливался из желез морских улиток, поэтому термин мог означать пурпурный цвет, одеяния, ранг людей, которые могли позволить себе краситель, или даже моллюсков. Но важнее, чем отдельное слово, - это чтение вообще, говорит Николарди. Полученные результаты "дают нам потенциальную возможность восстановить текст целого свитка", включая название и автора, что позволяет идентифицировать и датировать произведения.
ВИДЕТЬ НЕВИДИМОЕ
Яннис Ассаэль, штатный научный сотрудник Google DeepMind в Лондоне, называет "Задачу Везувия" "уникальной и вдохновляющей". Но, по его словам, это часть более широкого сдвига, когда искусственный интеллект (ИИ) все больше помогает изучать древние тексты. Например, в прошлом году Ассаэль и Соммершильд выпустили инструмент искусственного интеллекта под названием Ithaca, предназначенный для помощи ученым в определении даты и происхождения неопознанных древнегреческих надписей, а также в составлении предложений по тексту для заполнения любых пробелов. В настоящее время он получает сотни запросов в неделю, и аналогичная работа ведется с языками от корейского до аккадского, который использовался в древней Месопотамии.
Силз надеется, что машинное обучение позволит открыть то, что он называет "невидимой библиотекой". К ним относятся тексты, которые физически существуют, но никто их не видит: пергамент, используемый в средневековых книжных переплетах; палимпсесты, в которых более поздние надписи скрывают слой, лежащий под ними; картонаж, из обрывков старого папируса которого изготавливались футляры и маски для мумий в Древнем Египте.
Однако сейчас все внимание приковано к конкурсу "Везувий". Последний срок подачи заявок на главный приз - 31 декабря, и Силз описывает настроение как "безудержный оптимизм". Фарритор, например, уже обкатывает свои модели на других сегментах свитка и видит, как появляется все больше персонажей.