Казалось бы, люди веками черпали художественное вдохновение в общении с другими людьми, в своих эмоциях и переживаниях, а также в окружающем мире, природе и т.д. И потом передавали это с помощью карандаша, пера или кисти.
А что обычно думает художник, когда он открывает альбом с чистыми листами бумаги или встаёт к мольберту за холст? Художник думает о том, как лучше передать в рисунке те яркие образы, чувства и эмоции, которые рождаются в его воображении.
Но не всем дано уметь хорошо рисовать. Для кого-то ближе литературный жанр, проза или поэзия. Или он умеет петь, или мастерить своими руками потрясающие вещи. Или замечательно владеет актерским мастерством. Или он талантливый спортсмен. Или учёный, владеющий магией цифр. Но он тоже хочет выразить свои эмоции и чувства в виде графических образов. А почему бы и нет?
Создать своё изображение с помощью нейронной сети сейчас может практически любой, как профессионал в области дизайна, так и обычный новичок-любитель.
Человек - это творец по своей натуре. Он может взять в руки карандаш и попытаться остановить мгновение на листе бумаги.
Или человек может включить свой компьютер. Или взять в руки планшет, смартфон. И создать себе новый цифровой мир.
Магия образов
Постоянно меняется мир вокруг. И вместе с ним меняются и взгляды на современное искусство. Появляются даже новые термины - цифровое искусство, нейросетевая графика и т.д.
И даже сложно однозначно ответить на такой вопрос: это мы рисуем с нейросетью или нейросеть рисует с нами.
И можно ли вообще отнести нейросетевую графику к творчеству?
Да, можно. Ведь творчество - это определённый синтез накопленного в жизни опыта, синтез пропущенных через себя мыслей и образов, дающих в итоге новый толчок на рождение чего-то нового.
Каждый художник видит мир так, как он видит. А как видит мир нейросеть, обученная на миллионах различных графических образов и бесконечных векторов из чисел?
Она видит мир глазами тысяч авторов, вложивших свою душу в свои творения. И здесь начинается магия. Магия алгоритмов и моделей обучения, распознавания образов, генерации и синтеза различных новых изображений и текстур.
Современные нейронные сети-трансформеры способны обрабатывать большие изображения, решать параллельно задачи компьютерной лингвистики по анализу текстовых запросов и задачи компьютерной графики по генерации сложных графических композиций.
Яркие образы, удивительные цвета - все это может встретить в современной нейросетевой графике.
Магия формы
Привычные вещи вдруг изменяют свою форму и свой вид, радуют нас своей новизной.
Но кто-то и не знает, что стоит за всем этим перевоплощением. А за ним стоят миллионы реальных рисунков, тысячи эпох обучения нейронной сети.
Нейронная сеть обучается на сложнейших алгоритмах, подстраивая свои веса до тех пор, пока не будет достигнуто нужное качество обучения.
И за этим стоит труд многих десятков, а порою и сотен, тысяч людей, участвующих в создании подобных масштабных нейросетевых проектов.
Магия трансформеров
Что могут современные нейронные сети? Многое. Решать задачи прогнозирования, аппроксимации, диагностики неисправностей сложных систем, задачи оптимального управления, классификации и кластеризации данных и многое другое.
Нейросетевые проекты генерации изображений по запросам пользователей сочетают в себе целый набор сложнейших алгоритмов, связанных с лингвистическим анализом текстовых запросов, с задачами обучения распознаванию и генерации фрагментов изображений.
Например, генератор изображений DALL-E, созданный OpenAI, создаёт изображения на основе текстовых описаний, используя более 10 миллиардов параметров.
Алгоритм DALL-E состоит из двух частей:
- преобразование пользовательского запроса в коды для представления изображения (Prior);
- преобразования этого представления в фактическое изображение (Decoder).
Информация о сопоставлении текста и изображений при этом берется из специализированной системы CLIP (Contrastive Language-Image Pre-training), представляющей собой единое векторное пространство для текстовых запросов и соответствующих им визуальных репрезентаций.
Другая модель генерации изображений Stable Diffusion также берет текст и создает из него изображение. Изначально у модели есть только шум, а затем она постепенно улучшает изображение до тех пор, пока оно не станет соответствовать текстовому запросу.
Stable Diffusion использует генеративную модель Diffusion Model, основанную на трансформерах. Они берут изображение и постепенно добавляют в него случайные изменения. Затем трансформеры обучаются возвращать изображения к исходному виду, и, таким образом, учатся создавать новые изображения.
Для создания картинок Stable Diffusion использует свой набор данных, который содержит несколько миллиардов изображений из интернета, включая различные популярные сайты.
Модель генерации Midjourney использует большие языковые и диффузионные модели.
Большая языковая модель помогает генератору понимать смысл запроса пользователя. Затем это преобразуется в вектор - числовую версию запроса. Далее этот вектор становится основой процесса диффузии по генерации изображения.
Сказка - легко!
И вот цифровой мир оживает, превращая с помощью нейронной сети слова в яркие графические образы. Хотите сказку - легко.
Нейронные сети очень хорошо справляются с генерацией фантазийных образов, по своей концепции и не требующих строгого фотографического соответствия.
В капле дождя - весь мир
Алгоритмы трансформирующих нейронных сетей позволяют решать и задачи генерации сложных синтезированных картинок, представляющих собой вложенные образы и необычные текстуры.
Волшебство стилизации
Интересное свойство нейрогенераторов изображений - их умение стилизации, создание изображений в стиле работ известных художников или известных техник живописи.
Ниже приведём пример исходного изображения.
Далее - стилизация рисунка в стиле Н. Рериха, часто использующего в работах свою характерную цветовую палитру и образы Гималаев.
А еще далее - обработка рисунка в стилизации К. Малевича, с характерным для него геометрическим символизмом.
Ниже на картинках примеры стилизации живописи в виде акварельных рисунков.
Хотите узнать о творчестве нейронных сетей больше? Посетите выставку цифрового искусства в московском центре современного искусства М’АРС.
До 28 мая в Москве, в центре современного искусства М’АРС проходит интерактивная выставка Дзена «Новое искусство: Алгоритмы. Нейросети. Технологии». Проект посвящен новым нейроцифровым технологиям.
Все рисунки в статье выполнены автором канала с помощью нейросети Шедеврум. На канале также представлена целая серия работ и статей, посвящённых нейросетевой графике.