Найти в Дзене

Смех сквозь ИИ. Как искусственный интеллект справляется с задачей атрибуции английских сатирических гравюр XVIII–XIX веков?

Оглавление

Лаборатория «Искусство и искусственный интеллект» при Европейском университете существует уже несколько лет и постоянно ищет новые идеи и проекты. Наш лучший источник вдохновения — это профессионалы своего дела, которые сталкиваются с рутиной или сложными задачами. Такие люди часто приходят к нам с конкретным планом по тому, как можно облегчить их работу или решить проблему. Наша задача — реализовать их идею или предложить пути ее воплощения. Именно так случилось и на этот раз — к нам обратились с интересной задачей, касающейся поиска уникальных гравюр...

Пара № 1. Неизвестный гравер. A Barber`s Examination. 1795. Источники: (1) https://clck.ru/3FX9y7 (2) https://clck.ru/3FXA2N
Пара № 1. Неизвестный гравер. A Barber`s Examination. 1795. Источники: (1) https://clck.ru/3FX9y7 (2) https://clck.ru/3FXA2N

В мире есть две крупнейшие коллекции английских сатирических гравюр XVIII–XIX веков. Самая полная и тщательно атрибутированная коллекция находится в Британском музее: это около 26 000 изображений с подробными описаниями и перекрестными ссылками. Вторая по величине коллекция хранится в Эрмитаже и состоит примерно из 8 000 гравюр; есть вероятность, что среди них есть уникальные экземпляры, отсутствующие в Британском музее.

Задача звучала так: выявить уникальные гравюры в собрании Эрмитажа. Мы решили подойти к решению от обратного: сначала сопоставить все гравюры, хранящиеся в обеих коллекциях, а затем — выделить те, которые встречаются только в Эрмитаже.

Зачем здесь нужны компьютеры?

Ответ, на самом деле, простой: объем работы колоссален. Чтобы сравнить коллекции из 26 000 и 8 000 гравюр, потребуется проанализировать 208 миллионов пар изображений. Если проверять каждую пару вручную, затрачивая на каждую по 5 секунд — без сна и отдыха — на это уйдет более 30 лет.

Пара № 2. Исаак Крукшенк. A Fashionable Information for Ladies in the Country, 1795. Источники: (1) https://clck.ru/3FXA6T (2) https://clck.ru/3FXACa
Пара № 2. Исаак Крукшенк. A Fashionable Information for Ladies in the Country, 1795. Источники: (1) https://clck.ru/3FXA6T (2) https://clck.ru/3FXACa

Что из себя представляют гравюры и в чем техническая сложность работы с ними?

Гравюры — это тиражируемые на бумаге изображения, созданные при помощи различных техник: резцовой, офортной, а также литографии. В основе процесса — создание гравированной доски, с помощью которой черно-белое изображение может быть перенесено на бумагу.

При тиражировании доски изнашивались, или граверы вносили небольшие изменения в изображения — добавляли детали (например, птиц или пуговицы), корректировали элементы (подправляли носы) и так далее. В результате появлялись почти идентичные, но все же разные версии одного изображения. Такие вариации называют состояниями гравюры. Известны случаи, когда одна гравюра имеет более 20 состояний. Однако наша задача — научиться распознавать, что конкретная гравюра все-таки одна и та же, несмотря на эти отличия.

Кроме того, со временем люди начали раскрашивать черно-белые гравюры, чтобы сделать их более привлекательными. Однако никакого единого стандарта в раскрашивании не существовало: один художник мог окрасить платье в синий цвет, другой — в красный. Несмотря на различия в цветах, такие изображения также должны быть идентифицированы как одна гравюра.

Таким образом, наш алгоритм должен удовлетворять двум требованиям:

  1. Быть нечувствительным к мелким правкам и изменениям раскраски.
  2. Оставаться достаточно точным, чтобы различать разные гравюры.

И что же делать?

В рамках этого рассказа мы не будем вдаваться в технические детали проекта, но отметим главное: мы успешно сопоставили гравюры, выявив как парные, так и уникальные экземпляры. Кстати, уникальных оказалось не так уж мало (спойлер: гораздо больше 100). Для решения задачи мы применяли как классические методы компьютерного зрения, так и нейросетевые подходы — ведь мы лаборатория «Искусство и искусственный интеллект», куда же без нейросетей.

Вообще, если задуматься, то задача сходства изображений не такая уж простая. Представьте любую картинку, например, фотографию из отпуска. Теперь мысленно измените в ней всего один пиксель. Очевидно, изображения останутся практически одинаковыми. Чтобы это понять, можно выполнить попиксельное сравнение и выявить различие. Этот метод работает, но требует количества операций, равного числу пикселей, что может быть крайне ресурсоемко.
Теперь представьте другую ситуацию: у вас две фотографии, сделанные подряд. На одной — идеально ровный горизонт, на другой он слегка «завален». Попиксельное сравнение здесь уже бесполезно. Более того, задачи усложняются из-за различий в масштабе, перекрытия объектов, или даже из-за того, что объекты могут быть разными (например, все кошки в определенном смысле похожи друг на друга).

Чтобы справиться с такими сложностями, люди придумали преобразовывать изображения в компактные числовые представления — векторы. Вектор — это набор чисел, в каком-то смысле представляющий суть изображения. Почему именно вектор? Во-первых, сравнивать векторы гораздо быстрее, чем сопоставлять каждый пиксель. Во-вторых, вектор не просто сокращает объем данных, но и кодирует общий смысл изображения. Хотя это представление не идеально, оно достаточно эффективно для многих задач. И человек, глядя на вектор, уже не может понять что изображено на картинке.

Таким образом, модели, преобразующие изображения в векторы, играют ключевую роль в решении подобных задач, позволяя учитывать и масштабы, и различия, и даже некоторую «смысловую близость» между изображениями.

Иногда такой подход подводит нас. Вот две гравюры очень похожие по смыслу, но совсем не одинаковые.

Charles Williams. Clara — a bravura (1802) и Джеймс Гилрей. Mrs Биллингтон, поющая свою любимую арию из оперы «Artaxerxes» в роли «Mandane» (XVIII в.) Источники: (1) https://clck.ru/3FXASz (2) https://clck.ru/3FXAXb
Charles Williams. Clara — a bravura (1802) и Джеймс Гилрей. Mrs Биллингтон, поющая свою любимую арию из оперы «Artaxerxes» в роли «Mandane» (XVIII в.) Источники: (1) https://clck.ru/3FXASz (2) https://clck.ru/3FXAXb

А вот одинаковые, но одна — с оторванными краями.

Исаак Крукшенк. «Русский Колосс, предприняв путешествие по Италии, Франции и так далее, несет домой несколько подарков для императрицы». 15 июля 1799. Источник: https://clck.ru/3FXANh
Исаак Крукшенк. «Русский Колосс, предприняв путешествие по Италии, Франции и так далее, несет домой несколько подарков для императрицы». 15 июля 1799. Источник: https://clck.ru/3FXANh

Isaac Cruikshank. The Russian Colossus, 1799. Источник: https://clck.ru/3FXAQc
Isaac Cruikshank. The Russian Colossus, 1799. Источник: https://clck.ru/3FXAQc

Аппетит приходит во время еды

В процессе поиска уникальных гравюр мы поняли, что после их обнаружения потребуется не только идентифицировать, но и проанализировать каждую из них. Это подтолкнуло нас к разработке инструмента для анализа гравюр. Что вообще значит проанализировать гравюру? В процессе анализа нужно установить авторство художника, гравера, время создания, опознать персонажей, понять, какое событие представлено на гравюре, роль каждого персонажа и только тогда можно ответить на вопрос: «А где смеяться?». Может ли тут помочь машина? Прямо сейчас частично может. Мы уже разработали алгоритмы сегментации персонажей и бьемся над сопоставлением персонажей. Идея в том, чтобы алгоритмы подсказывали исследователю, кто изображен на гравюре и какие есть еще похожие персонажи на других гравюрах. Такой подход должен ускорять процесс анализа и атрибуции картины.

Прямо сейчас мы не создаем алгоритмы для помещения гравюры в контекст времени и глубокого контекстуального анализа. В первую очередь потому, что там легко ошибиться и необходимо распознавать текст, часто рукописный и с большими искажениями.

Если вы хотите чуть больше узнать о процессе разработки таких алгоритмов, можете ознакомиться с этим материалами тут и тут.

—————————————————————————————————————

Олег Лашманов — научный руководитель лаборатории «Искусство и искусственный интеллект» Школы искусств и культурного наследия Европейского университета в Санкт-Петербурге.