Найти тему
Ламповый дизайнер

Нейронки против иллюстраторов. ИИ уже победил?

Оглавление

Специально для моих читателей я перевел очень интересное исследование Трэвиса Тернера, где он сравнивает человека и ИИ.

🇬🇧 Оригинальная статья - evilmartians.com/chronicles/midjourney-vs-human-illustrators-has-ai-already-won

В эпоху искусственного интеллекта способность генерировать реалистичные изображения на основе текстовых подсказок больше не является далекой футуристической концепцией — это реальность сегодняшнего дня. Так пора ли дизайнерам передать часть (или всю) свою работу искусственному интеллекту? В этой статье мы сравним иллюстраторов-людей с искусственным интеллектом и попытаемся понять, прошли ли мы уже точку невозврата. Мы дадим одинаковые подсказки и рекомендации человеку и ИИ, и сравним получившиеся иллюстрации друг с другом.

В мире цифровой иллюстрации быстрое и точное создание сложных 3D-изображений всегда было сложной задачей. Но благодаря новейшим версиям моделей ИИ преобразования текста в изображение, таким как Midjourney, DALL-E и Stable Diffusion, этот процесс может стать значительно проще и эффективнее.

Давайте кратко рассмотрим каждую из этих моделей.

Популярные модели искусственного интеллекта для преобразования текста в изображение

DALL-E — это продукт второго поколения, разработанный некоммерческой организацией OpenAI (поддерживаемой, в частности, Илоном Маском). Она была обучена на миллионах стоковых изображений и, на мой взгляд, превосходит остальные в создании фотореалистичных результатов.

Stable Diffusion, представленная в августе 2022 года, является проектом с открытым исходным кодом, которая позволяет пользователям загружать и запускать её программное обеспечение локально. Из всех упомянутых генераторов изображений ИИ, Stable Diffusion оказала наибольшее влияние на рынок, позволив создателям переобучить модель для конкретной задачи и продавать ее как услугу.

Avatarai.me позволяет быстро создавать красивые фотографии профиля с помощью Stable Diffusion
Avatarai.me позволяет быстро создавать красивые фотографии профиля с помощью Stable Diffusion

Midjourney — это стартап, основанный Дэвидом Хольцем, который ориентирован на арт-сообщество. С моей точки зрения, он предлагает самые дикие творческие возможности из всех этих моделей. Более того, со своей 4-той альфа-версии (выпущенной в ноябре 2022 года) она начала производить поразительно качественные результаты — почти неотличимые от реального человека.

Технология существует! Она доступна каждому! А её результаты поразительны! Мне как дизайнеру, стоит задуматься: а не пора ли наконец делегировать часть моей работы искусственному интеллекту?

Начинаем эксперимент

Для этой задачи мы будем использовать Midjourney. Мне сразу же пришла в голову задача, которая хорошо подходит для сравнения человека и ИИ: почти каждую неделю наш блог (речь идёт о evilmartians.com — прим. переводчика) публикует статьи, каждая из которых требует уникальной, тематически подходящей иллюстрации. Их создают наши дизайнеры или один из нескольких внештатных иллюстраторов. Все эти дизайнеры, что очень важно, — люди.

В мои обязанности входит художественное руководство: предлагать концепции, при необходимости корректировать композиции и следить за соблюдением технических параметров.

Некоторые иллюстраторы работают с нами уже довольно давно, поэтому в целом моё «арт-директорство» минимально. Однако этот процесс все равно занимает в среднем 1-2 недели. В течение этого времени нам приходится «сложа руки» ждать эскизов и рендеров.

Эти иллюстрации также имеют определенный стиль. Нам важно, чтобы 90% обложек были выполнены в изометрическом 3D-виде, имели достаточно «пластичный» и яркий вид, а также однотонный фон. Типичный размер иллюстрации — 1200×1000 пикселей.

Давайте возьмем эти данные за основу для нашего эксперимента.

Классическая иллюстрация для блога evilmartians.com
Классическая иллюстрация для блога evilmartians.com

Что касается концепций: мы будем использовать три иллюстрации, уже созданные для нашего блога. В частности, мы скопируем оригинальный запрос, который мы отправили нашим иллюстраторам-людям, и попробуем использовать его в качестве подсказки для Midjourney.

Метрики

Для вынесения финальной оценки, мы выделим несколько пунктов, которые будем использовать для правильной оценки результата:

  • Активное время, затраченное на работу иллюстратора по сравнению с нейросетью.
  • Общее время создания, от запроса до конечного результата.
  • Сравнение приблизительных финансовых затрат.
  • Какая картинка в итоге выглядит более привлекательной.

Задание №1: кошка и мяч

Человек-художник

Запрос, который мы отправили иллюстратору:

«Мы пишем статью о миграции с CircleCI на GitHub Actions. Их логотипы — круг и кот (см. вложения). Идея простая — кот играет с фрисби, мячом или другим круглым предметом. Сможете ли вы создать самого милого котика в мире? Вы даже можете сделать его немного марсианином, если хотите».

Через 4 дня художник прислал довольно подробные рендеры, выполненные в красивом «игрушечном» стиле и отвечающие всем техническим параметрам:

-4

Мы взяли зеленую версию с мячом. Единственное, мы попросили изменить форму хвоста и размер мордочки кота.

Результат был готов на следующий день. И он всем очень понравился. В общей сложности процесс занял 6 дней, с активным «арт-директорством» максимум полчаса.

-5

ИИ-художник

В Midjourney все начинается с подсказки, которую вы отправляете в специальный чат Discord:

/imagine: pixar style 3d image of the cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4

Последние две команды являются настройками: ar — это соотношение сторон, а v 4 будет использовать самую новую версию Midjourney для получения наиболее качественных результатов. pixar style 3d указывает на стиль, к которому я хотел бы обратиться.

Вот результат, который я получил спустя мгновение:

-6

Хорошо, это выглядит забавно, но наш классический «пластиковый» стиль отсутствует. Давайте добавим слово «пластиковый» в подсказку:

/imagine: pixar style 3d of a toy plastic cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4

-7

Теперь она определенно выглядит пластмассовой, но очень стремной! Да и некоторые части тела отсутствуют.

Давайте повторим задание, но постараемся сделать кота черным и более похожим на талисман GitHub:

/imagine: pixar style 3d of a black toy plastic cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4

-8

Я повторил задание несколько раз, и на мой взгляд композиции всегда не хватало динамики. Давайте попробуем добавить несколько слов, обозначающих движение:

plastic toy cat in a spacesuit jumping and playing with a ball, black on solid green background, Pixar style isometric 3d render --ar 3:2 --v 4

-9

Наконец то композиция выглядит интересно и довольно динамично. Слово jumping (прыжки — прим. переводчика) сразу добавило недостающий импульс. Осталось только придумать несколько вариаций:

-10

Теперь давайте повысим разрешение идеального для меня варианта:

-11

Midjourney не очень хорошо справляется с однородными фонами, которые требует наш блог. Поэтому я использую еще один инструмент под названием Remove.bg для окончательной обработки изображения.

На всю эту работу у меня ушло примерно полтора часа активного времени.

-12

Задание №2: марсианский космический корабль

Художник-человек

Как и в случае с предыдущим изображением, мы предложили идею, но на этот раз она была более расплывчатой:

«Привет! Скоро у нас будет большое событие — запуск нашего нового сайта. Вместе с релизом мы хотим опубликовать статью о нашей работе над ним. Для иллюстрации мы бы хотели: белый фон, возможно, с цветными пятнами в центре, и белый объект на нем, или радужный объект на чисто белом. Для концепции: что-то о новом марсианском звездолете, ярком и блестящем».

Через 8 дней (спешить с этой статьей было некуда) иллюстратор прислал эскизы различных космических кораблей в футуристическом стиле и один вариант «изнутри космического корабля».

-13

Мы выбирали 2 и 5 варианты. Еще через 5 дней иллюстратор присылает хорошо детализированные рендеры:

-14

После выбора космического корабля и экспериментов с формой планеты мы получили окончательный результат. В целом это заняло 2 недели, но не более часа активного «арт-директорства».

-15

ИИ-художник

Отправляем запрос:

/imagine: pixar style 3d composition of the martian spaceship and tiny astronaut pearlescent on white background --ar 3:2 --v 4

На этот раз я был впечатлен первым результатом! Мне нравится, сходство корабля с персонажем «В поисках Немо», и я думаю, что это хорошо иллюстрирует идею нового марсианского звездолета. При этом он не белый и не перламутровый, но мне он все равно нравится.

-16

Остановимся на наиболее перспективном из них:

-17

Опция Light upscale redo поможет избавиться от «грязной» детализации:

-18

Прогоняем иллюстрацию через Remove.bg. И иллюстрация готова к публикации.

Весь процесс занял у меня 20 минут активного времени. Это было быстро!

-19

Задача №3: весы равновесия

Человек-художник

«Нам нужна иллюстрация для новой статьи. Она о нашем проекте, который помогает продавцам eBay торговать на крупных европейских торговых площадках и получать больше прибыли. Пока у меня есть несколько идей. Первая — о двух цилиндрических шляпах, одна поменьше, другая побольше. Кролик прыгает в ту, что больше. Вторая — о весах или разновесах, на одной стороне которых немного товаров (посылки, подарки), а на другой их много».

Нашему художнику понравилась вторая идея, и через 6 дней мы получили первые эскизы. Еще 3 дня ушло на создание рендера:

-20

Мы лишь попросили изменить цвет фона на тот, который ассоциируется с брендом. И всё было готово на следующий день.

В общей сложности на это ушло 10 дней, при этом активное время «арт-директорства» составило полчаса.

-21

ИИ-художник

Создаем запрос:

/imagine: plastic toy balance scales with one parcel on one side and multiple parcels on the other, in greens, yellows and red, solid blue background, Pixar style isometric 3d render --ar 3:2 --v 4

Эта текстовая подсказка звучит довольно простой. Не так ли? Но, как ни странно, для ИИ это звучало страшно сложной задачей. Я повторял подсказку снова и снова, меняя типы вещей на шкалах, но продолжал получать сюрреалистические конфигурации:

-22

По какой-то причине ИИ начал выдавать реалистичные картинки только тогда, когда я указал, что пластмассовая игрушка должна быть серебряной. Видимо, в сознании ИИ эта конфигурация слов как-то обрела смысл. Но комбинация весов и подарков, к сожалению, так и не заработала:

-23

После двух с половиной часов переписки с ИИ я был полностью измотан и решил просто увеличить наиболее «правдоподобный» результат. Ну хоть фон этот раз был уже однородным.

Качество «рендера» достойное, но идея отсутствует
Качество «рендера» достойное, но идея отсутствует

Подведём итоги

Проведя этот эксперимент, я обнаружил, что чем сложнее и продуманнее концепция, тем менее эффективно ИИ создавал желаемую иллюстрацию. Если с простым объектом, таким как кошка, он справлялся хорошо, то с более сложными и детальными иллюстрациями мы получали результат в стиле Кафки.

В Midjourney вы не можете просто «сделать мяч больше» или «заставить персонажа улыбнуться» — вы должны изменить всё изображение разом.

Решение этой проблемы путем создания коллажей из нескольких результатов — это выход, но где грань между тем, чтобы нарисовать иллюстрацию самому и вручную исправить работу ИИ?

ИИ — это не волшебная коробка, которая сразу же даст вам «идеальное» изображение, которое вы ищете. Наоборот, хорошие изображения получаются в результате длительного диалога между человеком и ИИ. Человек также должен хорошо понимать художественный стиль и обладать творческим видением.

Другая проблема заключается еще и в том, что до сих пор нет хорошего решения для анимации (по крайней мере, я о нем не знаю). Если нужна плавно анимированная обложка для статьи, вам поможет лишь человек.

Оценка

Давайте взвесим все «за» и «против», чтобы принять окончательное решение и подсчитаем расходы.

Какую из иллюстраций вы считаете более удачной?

Слева — иллюстрации обложек к нашим блог-постам, созданные дизайнерами-людьми, справа — иллюстрации, созданные с помощью Midjourney.
Слева — иллюстрации обложек к нашим блог-постам, созданные дизайнерами-людьми, справа — иллюстрации, созданные с помощью Midjourney.

Потраченное время

Создание иллюстраций с помощью Midjourney заняло от 20 минут до 2,5 часов активного времени «арт-директорства». Можно быстро добиться достойного результата, но если уделить времени больше, то и результат будет лучше.

Работа с художниками-людьми заняла от 6 дней до 2 недель, но потребовала всего 0,5-1 часа активного времени на создание иллюстрации.

Это классический компромисс: вы можете либо доверить все опытному художнику, либо тщательно контролировать каждый шаг процесса работы ИИ. Лично я бы выбрал первый вариант.

Финансовые затраты

С точки зрения финансовых затрат, ИИ предсказуемо выходит вперед. Стандартное индивидуальное членство на месяц стоит всего $30 (примерно 2 000 ₽ — прим. переводчика), а полученные изображения можно использовать без каких либо ограничений.

Однако, если вы используете изображения как сотрудник компании, доход которой превышает 1 миллион долларов в год, вам необходимо приобрести «Корпоративный» план за $600 в год (примерно 42 000 ₽ — прим. переводчика).

Мы тратим около $600 в месяц на иллюстрации, выполненные художниками-людьми. Экономическая разница очевидна.

Так кто же победил?

В результате эксперимента мы обнаружили, что и люди, и искусственный интеллект отлично справляются с определенными задачами. Таким образом, мы рассматриваем возможность использования Midjourney в следующих сценариях:

  • Когда у нашего дизайнера, он же «оперативный инженер», есть свободное время для активной генерации изображений.
  • Когда идея иллюстрации проста и не включает в себя множество объектов со сложными взаимодействиями между ними.
  • Когда иллюстрация нужна быстро и нет возможности ждать, пока будут утверждены и готовы реальные 3D-рендеры.


🤖 ПС: эта статья и изображение на обложке к ней были частично созданы ИИ
(и перевод тоже — прим. переводчика).