1308 подписчиков

Появилась нейросеть, копирующая стиль конкретного художника

7 минут

509 прочтений

9 ноября 2022

Лишат ли генеративные нейросети типа DALL-E-2 и Midjourney работы художников и дизайнеров? Холивары на эту тему уже давненько гремят в сети. Кто-то говорит, что прогресс не остановить, а работники творческих профессий в ответ заявляют о бездушности творений и о заимствовании, ведь нейросеть напрямую обучается по чужим работам.

Но если раньше было практически невозможно доказать, чем именно «вдохновилась» нейросеть, то теперь появляются всё более сомнительные с этической точки зрения случаи. Так, совсем недавно известная художница и иллюстратор Холли Менгерт стала своеобразным датасетом для новой нейросети (не давая на то согласия).

Модель «стиль-холли-менгерт»

Началось всё с сообщения в сабреддите Stable Diffusion: «Стили 2D-иллюстраций редко используются в Stable Diffusion, поэтому я создал модель DreamBooth, вдохновлённую работами Холли Менгерт». Оказалось, что некий пользователь с ником MysteryInc152 взял 32 иллюстрации художницы и точно настроил Stable Diffusion на воссоздание её стиля. Затем он выпустил свою модель с открытой лицензией для всех желающих. В качестве идентификатора для подсказок используется имя Холли, например: «иллюстрация принцессы в лесу в стиле холлименгерт».

Кто-то может посчитать, что это прикольно, что это очередной виток развития пресловутых технологий, но если посмотреть с человеческой точки зрения? Одно дело, когда ИИ становится новым (пусть и более доступным, и более универсальным) художником-конкурентом на рынке, а совсем другое, когда модель полностью копирует стиль конкретного художника и позволяет любому желающему плодить неограниченное количество работ «как Холли Менгерт».

Американский блогер и технолог Andy Baio пообщался с художницей и с автором модели её имени MysteryInc152, чтобы узнать их взгляды на ситуацию. Как легко предположить, Холли Менгерт была не в восторге от происходящего:

«В первую очередь мне показалось бестактным то, что моё имя фигурировало в этом инструменте. Я ничего о нём не знала и меня об этом не спрашивали. А если бы меня спросили, можно ли это сделать, я бы не согласилась».

Отказ участвовать в таком эксперименте был вызван не только эмоциями. Художница говорит, что не могла бы дать разрешение, даже если бы хотела. Многие изображения, на которых обучался ИИ, были сделаны для таких клиентов, как Disney и Penguin Random House. Компании заплатили Холли за работу, и права на изображения принадлежат им. Холли никогда не публиковала их без разрешения заказчиков, и, соответственно, никто другой не должен иметь возможность использовать их просто так.

Кроме того, Холли считает, что изображения в её стиле, которые генерирует нейросеть, на самом деле не отражают того, что делает её работу уникальной.

«Чем я горжусь как художник, так это аутентичным выражением лица, привлекательным дизайном и узнаваемыми персонажами. И именно эти особенности нейросеть игнорирует».

«Мне кажется, что ИИ может как бы имитировать текстуры кисти и рендеринг, а также улавливать некоторые характерные цвета и формы, но не это делает тебя действительно эффективным в качестве иллюстратора или дизайнера. Если подумать, рендеринг, мазки и цвета — наиболее поверхностная сторона искусства. Я думаю, что люди в конечном итоге привязываются именно к привлекательным, близким для них персонажам. А ИИ борется с этим».

«Что касается персонажей, я не увидела в них себя. Не увидела, чтобы ИИ принимал решения, которые принимаю я, поэтому не ощущаю родства с этими картинками. Некоторые из них меня расстроили. Мне показалось, что на самом деле они и близко не имитируют мой стиль, и всё же моё имя является частью инструмента».

В конечном итоге Холли огорчило, что создатель модели не подумал, что за стилем стоит живой человек. Что его творчество является результатом прожитой жизни и опыта.

Чтобы узнать мнение второй стороны, Энди связался с автором модели MysteryInc152. Оказалось, что в миру он Огбогу Калу, молодой нигерийский инженер, живущий и работающий в Галифаксе в Канаде. Огбогу — фанат фантастических романов и футбола, комиксов и анимации, а теперь и генеративного ИИ.

Первоначально Огбогу надеялся создать серию комиксов, но знал, что на это уйдут годы, даже при условии, что у него будут навыки рисования. Когда он впервые обнаружил Midjourney, то решил, что это прекрасно подойдёт для его проекта. А потом случился Stable Diffusion.

В отличие от Midjourney, Stable Diffusion был полностью бесплатным, с открытым исходным кодом и поддерживал мощные творческие инструменты, такие как img2img, inpainting и outpainting. Это было почти идеально, но нейросеть всё ещё имела проблемы с соблюдением единого стиля для 2D-комиксов. Сначала Огбогу попробовал обучение в стиле гиперсети, но без особого успеха, а потом DreamBooth, наконец, позволил ему получить желаемые результаты.

До публикации своей модели Огбогу вообще не был знаком с работами Холли Менгерт. Он помогал другому пользователю Stable Diffusion на Reddit. Огбогу усовершенствовал тренировочный набор изображений и на следующий день опубликовал результаты. Процесс обучения занял около 2,5 часов на GPU в облаке и стоил менее 2 долларов.

Позиция Огбогу граничит с фатализмом: технология неизбежна, все, кто её использует, одинаково виновны, а границу морали можно прочертить произвольно. Он считает, что люди, использующие Stable Diffusion каким-то «хорошим» способом, просто обманывают себя. Нет функциональной разницы, вы либо используете технологию и делаете ещё один шаг к разрушению текущей отрасли, либо нет.

Законно ли использовать чужое творчество подобным образом? Огбогу говорит, что это будет решать суд, если дело до того дойдёт. Кроме того, авторских прав на стиль не существует. Впрочем, на следующий день после беседы Огбогу Калу, узнав, что Холли против использования своего имени, переименовал модель Huggingface hollie-mengert-artstyle в более общую Illustration-Diffusion и добавил строку в README: «Холли не связана с этим».

Двумя днями позже он выпустил новую модель, обученную на 40 изображениях художника Джеймсом Дейли III:

Искусство Джеймса Дейли III (слева) и изображения, сгенерированные Stable Diffusion (справа)

Кто первый начал

26 августа Google AI выпустил DreamBooth, инструмент, который позволяет вводить в предварительно обученную генеративную модель всего лишь 3-5 изображений человека, объекта или стиля для получения множественных вариаций.

Google не опубликовал кода, сославшись на потенциальный риск для общества (появления фэйков, порно с лицами знаменитостей и т.п.). однако спустя 11 дней инженер AWS AI выпустил первую общедоступную реализацию DreamBooth с использованием Stable Diffusion с открытым исходным кодом и доступную для всех. А это значит, что любой получил возможность копировать стиль анимации Диснея, создавать вариации изображений публичных лиц и тому подобное.

Изображения DreamBooth, обученной на мультфильмах Диснея

Вопросы этики

Обычный аргумент сторонников генеративных сетей заключается в том, что люди тоже в каком-то смысле обучаются на чужих изображениях. Мы смотрим работы других авторов, потом наш мозг обрабатывает эту информацию и выдаёт в виде собственного творчества. ИИ аналогичным образом поглощает огромный объём картинок и создаёт не «коллаж», а самобытную работу.

И всё же человеческая память работает иным образом. Мы не обрабатываем увиденные изображения попиксельно, а чаще всего схватываем общее впечатление. Кроме того, на восприятие могут влиять жизненный контекст, настроение и многое другое. И в итоговом творчестве человек может использовать не только увиденные картины, но и свои переживания, сцены из жизни, сны.

И всё же, что бы там ни решили с авторскими правами, генеративные нейросети – наша новая реальность. И прогресс действительно не остановить, к чему бы это ни привело.

На данный момент нейронки вряд ли способны полностью вытеснить коммерческих художников-людей (хотя недавно созданная нейросетью картина победила в конкурсе с живыми художниками). Слишком много нужно попыток, чтобы получить вменяемое изображение, нейросеть не всегда верно понимает из описания, что мы хотим. Возникают проблемы при отображении людей (жутковатые глаза, неправильное количество пальцев), особенно при наличии нескольких людей на одной картинке. Действительно круто получаются хоррор-изображения, потому что там все эти странности играют только в плюс, если вам нужно получить монстра.

Опять же, исходный стиль задают люди, так что, вероятно, наиболее востребованные художники с выразительным авторским почерком останутся на плаву. А вот те, кто занимался более рутинной работой, могут стать жертвой дешёвого инструмента.

А вы как считаете, есть этот этический водораздел: пользоваться Dalle 2 – это норм, а настраивать на конкретного художника – зло?