После полуночи 24 августа 79 года, в ходе извержения Везувия, потоки раскалённой лавы заполнили Помпеи, Стабии и Геркуланум. За несколько часов они поглотили город, лишив жизни тех, кто не успел вовремя уйти. Разлив лавы заполнил внутренние помещения домов, лишив их доступа к воздуху, законсервировав на долгие века.
В 1752 году рабочие королевской семьи Бурбонов стали свидетелями удивительного открытия, которое сегодня известно как Вилла Папирусов.
В XVIII веке начались первые археологические раскопки. Эти исследования проводились грубыми методами, напоминающими работы в горнодобывающей промышленности. Шахты были вырыты, подпорки установлены, а грунт и артефакты извлекались на поверхность в корзинах. Вилла до сих пор не раскопана до конца, главная библиотека - не найдена. Но огромное количество артефактов, в частности - древних свитков до сих пор хранят свои тайны.
Точное количество обнаруженных свитков остается неизвестным, поскольку многие свитки были случайно уничтожены рабочими. Некоторые свитки, ошибочно принятые за дрова, ушли на растопку или были выброшены. Часть драгоценных находок была утрачена в ходе попыток извлечения из вулканического туфа учеными.
Они представляют собой комки обуглившегося пепла, которые крайне трудно раскрыть, не повреждая их значительно. Однако возникает вопрос: как мы можем расшифровать их содержание, оставаясь перед вызовом свернутых страниц?
С момента обнаружения древних свитков предпринимались разнообразные попытки развернуть и прочесть их. Однако состояние далеко не всех свитков позволяло успешно осуществить эту задачу. В стремлении сделать древние тексты более читаемыми, исследователи применяли различные химические реагенты, такие как жидкая ртуть, смеси этанола с глицерином и тёплой водой, и так далее.
В процессе раскрытия тайн папирусов значительный вклад внесли каноник Мазоки и генуэзец Антонио Пьяджо. Они предпринимали усилия по работе с только что извлеченными на свет папирусами. Их метод включал использование специального механизма в виде ящика с вращающимся валом, который служил для разворачивания свитков и их последующего приклеивания на бумагу.
15 марта 2023 года Нэт Фридман, Дэниел Гросс и Брент Силс запустили конкурс: Vesuvius Challenge с целью решения данной задачи. Они провели съемку свитков из Института Франции на ускорителе частиц Diamond Light Source, расположенном недалеко от Оксфорда. Полученные компьютерные томограммы свитков были выложены в открытый доступ с высоким разрешением, сопровождая это предложением о призах общей стоимостью более 1 миллиона долларов, предоставленных многочисленными благотворителями.
Менее чем за год, в декабре 2023 года, они достигли этой цели. Теперь, спустя 275 лет, мы открываем для себя возможность погружения в содержание древних свитков:
Решение этого обзора было ясным и единодушным: высший приз в рамках Vesuvius Challenge в размере 700 000 долларов вручается троице участников за их выдающуюся работу. Поздравляем Юсефа Надера, Люка Фарритора и Джулиана Шиллигера!
Что удалось расшифровать?
На данный момент удалось раскрыть и прочитать приблизительно 5% содержания первого свитка. Группа выдающихся папирологов трудилась не покладая рук и успешно осуществила предварительную дешифрацию всех выявленных столбцов. В настоящее время мы уверены в том, что данный свиток представляет собой уникальный текст из древности, ранее неизвестный широкой публике. Первые интерпретации дают нам представление о философском содержании данного текста.
Общая тема текста — удовольствие, которое в правильном понимании является высшим благом в эпикурейской философии. В этих двух фрагментах из двух последовательных колонок свитка автор обеспокоен тем, может ли наличие товаров, таких как еда, повлиять на удовольствие, которое они доставляют, и каким образом.
Приносят ли вещи, доступные в меньших количествах, больше удовольствия, чем те, которые доступны в изобилии? Наш автор думает, что нет: «как и в случае с едой, мы не сразу считаем вещи, которые едва ли, безусловно более приятными, чем те, которых в изобилии». Однако легче ли нам естественным образом обойтись без вещей, которых в изобилии? «Такие вопросы будут рассматриваться часто».
По общему мнению, история связывает Филодема с эпикурейской школой, предполагая, что он занимался философией прямо на вилле, где располагалась его обитель, и трудился в уютной библиотеке на вилле, где впоследствии были обнаружены древние свитки.
Далее в свитке:
В заключительной части текста наш автор делает напутственный выстрел своим противникам, которым «нечего сказать об удовольствии ни вообще, ни в частности, когда речь идет об определении».
«…ибо мы [не] воздерживаемся от вопросов одних вещей, но понимаем/помним другие. И пусть нам будет очевидно говорить правду, поскольку она часто могла казаться очевидной!»
Насколько правдива эта расшифровка?
Модели машинного обучения часто сталкиваются с проблемой "галлюцинаций", порождая текст или изображения, схожие с данными обучения. Участники Vesuvius Challenge также могут искусно обманывать, вставляя собственные изображения, например, интегрируя их в вес модели. Как же мы убеждаемся, что здесь такого не происходит? Есть несколько ответов:
- Техническое воспроизведение: Команда технической проверки Vesuvius Challenge вручную воспроизвела победные работы. Мы тщательно изучили каждую строку кода, чтобы удостовериться, что при независимом запуске получаются схожие выходные изображения. Поскольку весь исходный код и обучающие данные теперь открыты, вы можете провести свою проверку!
- Несколько заявок из одной области: Обратите внимание, что все представленные изображения демонстрируют одну и ту же область прокрутки. Это связано с использованием нами листов папируса с 3D-картированием в рамках компьютерной томографии («сегменты»), созданных нашей командой по сегментации и использованными всеми участниками. Полученные изображения различных моделей и меток обучения дали крайне схожие результаты.
- Маленькие окна ввода/вывода: Модели обнаружения рукописных символов не основаны на греческих буквах, оптическом распознавании символов (OCR) или языковых моделях. Они независимо выявляют крошечные пятна чернил на компьютерной томографии, и текст появляется только при их объединении. Таким образом, текст на изображениях связан напрямую с базовыми данными компьютерной томографии, а не представляет собой результат воображения модели машинного обучения.
Обобщенно, процесс виртуальной развертки включает три этапа:
- Сканирование: Создание трехмерного скана свитка или его фрагмента при помощи рентгеновской томографии.
- Сегментация: Отслеживание смятых слоев свернутого папируса во время 3D-сканирования, а затем их развертывание или сглаживание.
- Обнаружение чернил: Идентификация областей, содержащих чернила, в полученных сглаженных сегментах при использовании моделей машинного обучения.
Эти античные свитки подверглись сканированию на ускорителе частиц Diamond Light Source, расположенном недалеко от Оксфорда, Англия. Установка осуществляет использование параллельного пучка рентгеновских лучей с высоким потоком, обеспечивая получение быстрых и точных изображений с высоким разрешением. Рентгеновские снимки преобразуются в трехмерный объем вокселов при помощи алгоритмов томографической реконструкции, создавая стопку срезов изображений.
Что дальше?
В 2023 году наш прогресс составил от 0% до 5% по развороту свитков. Однако в 2024 году мы стремимся перейти от 5% одного свитка к охвату 90% всех четырех отсканированных свитков, заложив тем самым фундамент для полного анализа 800 древних свитков.
Основной метой на 2024 год является достижение 90% дешифровки содержания свитков, и Главный приз 2024 года будет вручен первой команде, способной справиться с этим вызовом. Более подробные критерии оценки приза будут обнародованы в марте.
Однако основным вызовом на пути к достижению этой цели остается процесс отслеживания поверхности папируса внутри свитка, который на сегодняшний день полностью зависит от ручной работы. Разработка читаемого текста обходится более чем 100 долларами за каждый квадратный сантиметр ручного труда. С такой стоимостью, сегментация всех свитков может обойтись сотнями миллионов, а возможно, и миллиардами долларов. Несмотря на улучшения в инструментах сегментации, процесс по-прежнему осуществляется вручную и требует значительных затрат. Необходима автоматизация.
Оригинальная статья: https://scrollprize.org/grandprize