Новые методы могут помочь заново открыть утерянные произведения древности
“у меня это сработало!” - говорит Нат Фридман, соучредитель Vesuvius Challenge, который предлагал призы в размере 1 млн долларов каждому, кто сможет использовать искусственный интеллект (ии) для расшифровки свитков папируса, обуглившихся в результате извержения Везувия в 79году нашей эры. Но это сработало. 5 февраля мистер Фридман объявил, что команда из трех человек была награждена 700 000 долларами за успешное извлечение четырех отрывков текста, каждый длиной не менее 140 символов и с разборчивостью не менее 85% символов, из свитка, известного как Banana Boy. Трое победителей, Люк Фарритор, Юсеф Надер и Джулиан Шиллигер, изучают информатику.
Этот свиток - один из сотен, найденных в библиотеке римской виллы в Геркулануме, которая, как считается, принадлежала тестю Юлия Цезаря. Наряду с сотнями других свитков в библиотеке виллы, она была повреждена раскаленными газами, охватившими город во время того же извержения, которое также похоронило близлежащий город Помпеи.
Чтение текста со свитков затруднено, потому что высокая температура превратила их в хрупкие поленья древесного угля; все попытки развернуть их физически приводили к их распаду. Поэтому внимание переключилось на поиск способов их виртуального развертывания с помощью компьютерного анализа 3d сканирований свитков, сделанных с помощью рентгеновских снимков. Это превратило расшифровку свитков в программную проблему, но очень сложную.
Виртуальное разворачивание - это двухэтапный процесс, впервые предложенный У. Брентом Силзом, специалистом по информатике из Университета Кентукки. Первый этап, называемый сегментацией, включает в себя прослеживание краев свернутого листа папируса внутри 3d сканирования, затем извлечение 2d изображений поверхности свитка. На втором этапе, при обнаружении чернил, анализируются полученные изображения, чтобы выделить чернила текста свитка из фона папируса. Это особенно сложно для свитков из Геркуланума, которые написаны чернилами на основе углерода, поэтому они очень слабо контрастируют с фоном из обугленного папируса.
Доктор Силз вместе с мистером Фридманом и Дэниелом Гроссом, двумя технологическими предпринимателями, подумали, что методы искусственного интеллекта могут быть плодотворно использованы для решения этих двух проблем, и запустили призовой конкурс, чтобы выяснить это. С тех пор сообщество из тысяч энтузиастов разработало ряд инструментов и хитростей, позволяющих ускорить сложный процесс сегментации и определять чернила отдельных букв, а затем и целых слов. В октябре 2023 года мистер Фарритор и мистер Надер были награждены меньшими призами за то, что независимо извлекли первое разборчивое слово (“порфирас”, что в переводе с древнегреческого означает “фиолетовый”) из свитка Banana Boy (названного так из-за его размера и формы).
2000-летний свиток, который сгорел во время извержения Везувия.
Затем два студента объединились и, к которым присоединился мистер Шиллигер, еще больше усовершенствовали технику машинного обучения, связанную с обнаружением чернил. Вручную помечая области, которые, как известно, были нанесены чернилами, они могли обучить нейронную сеть находить больше таких объектов; они были возвращены обратно в модель, чтобы улучшить ее способность обнаружения. Мистер Надер также переключил нейронную сеть на новую архитектуру, называемую формирователем времени, что дало более четкие результаты. Тем временем мистер Шиллигер разработал инструмент для большей автоматизации процесса сегментации (большую часть которого все еще приходится выполнять вручную).
Крайний срок подачи результатов для получения главного приза приходился на конец декабря, и трио было награждено призом после оценки работ командой папирологов. (Трое занявших вторые места получат меньшие призы по 50 000 долларов каждый.) Победившая заявка содержала 15 столбцов текста, написанных по-гречески. Чтение было “умопомрачительным”, говорит Федерика Николарди, папиролог из Неаполитанского университета Федерико II, которая была одним из судей. Считается, что этот текст представляет собой ранее неизвестную работу Филодема, философа-эпикурейца, жившего в Геркулануме, об удовольствиях.
Теперь мистер Фридман хочет расширить масштаб всего процесса. По его словам, теперь, когда проблема обнаружения чернил решена, “узким местом является сегментация”. Инструмент автоматической сегментации мистера Шиллигера - большой шаг вперед, и он согласился сделать его открытым исходным кодом и сотрудничать с другими для его улучшения. В качестве поощрения предлагаются дополнительные призы. Тем временем мистер Фридман намерен сканировать больше свитков с помощью алмазного источника света, ускорителя частиц в Великобритании, и стандартизировать процесс сканирования.
Это будет стоить денег. Раздав призы в размере 1,2 миллиона долларов, часть из которых из собственного кармана, мистер Фридман ищет других спонсоров для поддержки проекта. Он надеется, что расшифровка древних свитков приведет к повторному открытию утерянных произведений древности — “каждый свиток — это тайная шкатулка”, - говорит он, - и, в конечном счете, возродит интерес к дальнейшим раскопкам виллы в Геркулануме, где могут находиться еще тысячи
таких произведений. ■