Найти тему
НЕйро ПРО Дизайн

Как нейросеть генерирует изображения

Гийом Апполинэр. Мост Мирабо. Иллюстрация выполнена нейросетью Leonardo.ai
Гийом Апполинэр. Мост Мирабо. Иллюстрация выполнена нейросетью Leonardo.ai

При генерировании изображений по промту нейросеть часто выдает неожиданные результаты. Кажется, что получившийся коллаж состоит из хаотично подобранных изображений. Но если детально разобрать полученное изображение, то окажется, что все вполне логично, а изображение наполнено смыслом. Просто зритель не всегда располагает нолной информации о сюжете, не считвывает смысловых связей между элементами изображения. Нейросеть за считанные секунды обрабатывает тысячи картинок и текстов, подбирает наиболее релевантные сочетания и складывает из мозаичных элементов целостную картину.

Давайте поставим эксперимент. Зададим нейросети Leonardo тестовый промт:

The Mirabeau Bridge, Guillaume Apollinaire, in the style of artist Hans Ruedi Giger

Промт имеет классическую структуру, первая часть говорить о том, что изображать (мост Мирабо), вторая часть содержит уточнение (имя поэта Аполлинэра задает контекст литературы и искусства начала 20-го столетия), последняя часть промта задает стиль изображения (швейцарский художник Гигер работал в стиле сюрреализма, по этому конечному изображение приобретает таинственную, загадочную атмосферу). Нейросеть не всегда може стилизовать картинку под манеру указанного в промте художника. По этому, перед началом эксперимента мы удостоверились, что указания на работы Жигера дают ощутимое влияние на стилистику генерируемого изображения.

Результат рендера вы видите на картинке в начале стьатьи. Композиция похоже на бред нездорового разума. Какая связь между этим изображением и заданой подсказкой? А связь оказывается самая прямая!

Исходные изображения для нейро коллажа
Исходные изображения для нейро коллажа

Почему человек в очках? Это отсыл к работе Giorgio De Chirico портрет [предчувствие] Гийома Аполлинера. Написана в 1914 году, год спустя после написания стихотворения Мост Мирабо.

Почему конструкция имеет странную круглую форму? Взгляните на окно и интерьер музея художника Giger и вам все станет ясно. Округлая, сложной формы оконная рама и переплетающиеся змеевидные существа. Все это присутствует и в работе нейросети.

Почему на круглом монументе две головы? Потому, что мост Мирабо украшают две скульптурных группы. Это парная, симетричная архитектурная композиция. Нейросеть позаимствовала эту композицию и трансформировала в собственный арт-объект.

Что делает статуя, похожая на статую Свободы на заднем плане? Объяснение дают Яндекс карты. Поисковик по запросу ошибочно выдает другую фотографию. Памятник Аполлинэру по адресу: rue de l'Abbé, 15 и правда стоит, но выглядит он иначе. Стстуя Свободы стоит в Париже в другом месте, на полуостровке, в окружении плакучих ив. И это дает объяснение, почему вся конструкция, изображенная на картине нейросети, водружена на полуостров, и почему рядом прогуливаются люди.

А как бы вы справились с такой сложной задачей, изобразить в одной композиции столько несовместимых элементов?

Нейросеть черпает визуальную информацию частично из интернета, частично, из подключенной модели, а затем обрабатывает ее по установленному алгоритму. В данном случае использовалась модель Leonardo Select. Но стоит сменить модель, вместо Leonardo Select подключить Stable Diffusion 2.0 и результат генерации станет совершенно иным. Возможно, и здесь всему есть свое объяснение.
Догадаетесь?

Гийом Апполинэр. Мост Мирабо. Иллюстрация выполнена нейросетью Leonardo, модель Stable Diffusion 2.0
Гийом Апполинэр. Мост Мирабо. Иллюстрация выполнена нейросетью Leonardo, модель Stable Diffusion 2.0

По материалам публикации AndyA