44 подписчика

Нейронки против иллюстраторов. ИИ уже победил?

4 января 20234 янв 2023

10 мин

Оглавление

Популярные модели искусственного интеллекта для преобразования текста в изображение
Начинаем эксперимент
Метрики

Специально для моих читателей я перевел очень интересное исследование Трэвиса Тернера, где он сравнивает человека и ИИ.

🇬🇧 Оригинальная статья - evilmartians.com/chronicles/midjourney-vs-human-illustrators-has-ai-already-won

В эпоху искусственного интеллекта способность генерировать реалистичные изображения на основе текстовых подсказок больше не является далекой футуристической концепцией — это реальность сегодняшнего дня. Так пора ли дизайнерам передать часть (или всю) свою работу искусственному интеллекту? В этой статье мы сравним иллюстраторов-людей с искусственным интеллектом и попытаемся понять, прошли ли мы уже точку невозврата. Мы дадим одинаковые подсказки и рекомендации человеку и ИИ, и сравним получившиеся иллюстрации друг с другом.

В мире цифровой иллюстрации быстрое и точное создание сложных 3D-изображений всегда было сложной задачей. Но благодаря новейшим версиям моделей ИИ преобразования текста в изображение, таким как Midjourney, DALL-E и Stable Diffusion, этот процесс может стать значительно проще и эффективнее.

Давайте кратко рассмотрим каждую из этих моделей.

Начинаем эксперимент

Для этой задачи мы будем использовать Midjourney. Мне сразу же пришла в голову задача, которая хорошо подходит для сравнения человека и ИИ: почти каждую неделю наш блог (речь идёт о evilmartians.com — прим. переводчика) публикует статьи, каждая из которых требует уникальной, тематически подходящей иллюстрации. Их создают наши дизайнеры или один из нескольких внештатных иллюстраторов. Все эти дизайнеры, что очень важно, — люди.

В мои обязанности входит художественное руководство: предлагать концепции, при необходимости корректировать композиции и следить за соблюдением технических параметров.

Некоторые иллюстраторы работают с нами уже довольно давно, поэтому в целом моё «арт-директорство» минимально. Однако этот процесс все равно занимает в среднем 1-2 недели. В течение этого времени нам приходится «сложа руки» ждать эскизов и рендеров.

Эти иллюстрации также имеют определенный стиль. Нам важно, чтобы 90% обложек были выполнены в изометрическом 3D-виде, имели достаточно «пластичный» и яркий вид, а также однотонный фон. Типичный размер иллюстрации — 1200×1000 пикселей.

Давайте возьмем эти данные за основу для нашего эксперимента.

Классическая иллюстрация для блога evilmartians.com

Что касается концепций: мы будем использовать три иллюстрации, уже созданные для нашего блога. В частности, мы скопируем оригинальный запрос, который мы отправили нашим иллюстраторам-людям, и попробуем использовать его в качестве подсказки для Midjourney.

Метрики

Для вынесения финальной оценки, мы выделим несколько пунктов, которые будем использовать для правильной оценки результата:

Активное время, затраченное на работу иллюстратора по сравнению с нейросетью.
Общее время создания, от запроса до конечного результата.
Сравнение приблизительных финансовых затрат.
Какая картинка в итоге выглядит более привлекательной.

Задание №1: кошка и мяч

Человек-художник

Запрос, который мы отправили иллюстратору:

«Мы пишем статью о миграции с CircleCI на GitHub Actions. Их логотипы — круг и кот (см. вложения). Идея простая — кот играет с фрисби, мячом или другим круглым предметом. Сможете ли вы создать самого милого котика в мире? Вы даже можете сделать его немного марсианином, если хотите».

Через 4 дня художник прислал довольно подробные рендеры, выполненные в красивом «игрушечном» стиле и отвечающие всем техническим параметрам:

Мы взяли зеленую версию с мячом. Единственное, мы попросили изменить форму хвоста и размер мордочки кота.

Результат был готов на следующий день. И он всем очень понравился. В общей сложности процесс занял 6 дней, с активным «арт-директорством» максимум полчаса.

ИИ-художник

В Midjourney все начинается с подсказки, которую вы отправляете в специальный чат Discord:

/imagine: pixar style 3d image of the cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4

Последние две команды являются настройками: ar — это соотношение сторон, а v 4 будет использовать самую новую версию Midjourney для получения наиболее качественных результатов. pixar style 3d указывает на стиль, к которому я хотел бы обратиться.

Вот результат, который я получил спустя мгновение:

Хорошо, это выглядит забавно, но наш классический «пластиковый» стиль отсутствует. Давайте добавим слово «пластиковый» в подсказку:

/imagine: pixar style 3d of a toy plastic cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4

Теперь она определенно выглядит пластмассовой, но очень стремной! Да и некоторые части тела отсутствуют.

Давайте повторим задание, но постараемся сделать кота черным и более похожим на талисман GitHub:

/imagine: pixar style 3d of a black toy plastic cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4

Я повторил задание несколько раз, и на мой взгляд композиции всегда не хватало динамики. Давайте попробуем добавить несколько слов, обозначающих движение:

plastic toy cat in a spacesuit jumping and playing with a ball, black on solid green background, Pixar style isometric 3d render --ar 3:2 --v 4

Наконец то композиция выглядит интересно и довольно динамично. Слово jumping (прыжки — прим. переводчика) сразу добавило недостающий импульс. Осталось только придумать несколько вариаций:

Теперь давайте повысим разрешение идеального для меня варианта:

Midjourney не очень хорошо справляется с однородными фонами, которые требует наш блог. Поэтому я использую еще один инструмент под названием Remove.bg для окончательной обработки изображения.

На всю эту работу у меня ушло примерно полтора часа активного времени.

Задание №2: марсианский космический корабль

Художник-человек

Как и в случае с предыдущим изображением, мы предложили идею, но на этот раз она была более расплывчатой:

«Привет! Скоро у нас будет большое событие — запуск нашего нового сайта. Вместе с релизом мы хотим опубликовать статью о нашей работе над ним. Для иллюстрации мы бы хотели: белый фон, возможно, с цветными пятнами в центре, и белый объект на нем, или радужный объект на чисто белом. Для концепции: что-то о новом марсианском звездолете, ярком и блестящем».

Через 8 дней (спешить с этой статьей было некуда) иллюстратор прислал эскизы различных космических кораблей в футуристическом стиле и один вариант «изнутри космического корабля».

Мы выбирали 2 и 5 варианты. Еще через 5 дней иллюстратор присылает хорошо детализированные рендеры:

После выбора космического корабля и экспериментов с формой планеты мы получили окончательный результат. В целом это заняло 2 недели, но не более часа активного «арт-директорства».

ИИ-художник

Отправляем запрос:

/imagine: pixar style 3d composition of the martian spaceship and tiny astronaut pearlescent on white background --ar 3:2 --v 4

На этот раз я был впечатлен первым результатом! Мне нравится, сходство корабля с персонажем «В поисках Немо», и я думаю, что это хорошо иллюстрирует идею нового марсианского звездолета. При этом он не белый и не перламутровый, но мне он все равно нравится.

Остановимся на наиболее перспективном из них:

Опция Light upscale redo поможет избавиться от «грязной» детализации:

Прогоняем иллюстрацию через Remove.bg. И иллюстрация готова к публикации.

Весь процесс занял у меня 20 минут активного времени. Это было быстро!

Задача №3: весы равновесия

Человек-художник

«Нам нужна иллюстрация для новой статьи. Она о нашем проекте, который помогает продавцам eBay торговать на крупных европейских торговых площадках и получать больше прибыли. Пока у меня есть несколько идей. Первая — о двух цилиндрических шляпах, одна поменьше, другая побольше. Кролик прыгает в ту, что больше. Вторая — о весах или разновесах, на одной стороне которых немного товаров (посылки, подарки), а на другой их много».

Нашему художнику понравилась вторая идея, и через 6 дней мы получили первые эскизы. Еще 3 дня ушло на создание рендера:

Мы лишь попросили изменить цвет фона на тот, который ассоциируется с брендом. И всё было готово на следующий день.

В общей сложности на это ушло 10 дней, при этом активное время «арт-директорства» составило полчаса.

ИИ-художник

Создаем запрос:

/imagine: plastic toy balance scales with one parcel on one side and multiple parcels on the other, in greens, yellows and red, solid blue background, Pixar style isometric 3d render --ar 3:2 --v 4

Эта текстовая подсказка звучит довольно простой. Не так ли? Но, как ни странно, для ИИ это звучало страшно сложной задачей. Я повторял подсказку снова и снова, меняя типы вещей на шкалах, но продолжал получать сюрреалистические конфигурации:

По какой-то причине ИИ начал выдавать реалистичные картинки только тогда, когда я указал, что пластмассовая игрушка должна быть серебряной. Видимо, в сознании ИИ эта конфигурация слов как-то обрела смысл. Но комбинация весов и подарков, к сожалению, так и не заработала:

После двух с половиной часов переписки с ИИ я был полностью измотан и решил просто увеличить наиболее «правдоподобный» результат. Ну хоть фон этот раз был уже однородным.

Качество «рендера» достойное, но идея отсутствует

Подведём итоги

Проведя этот эксперимент, я обнаружил, что чем сложнее и продуманнее концепция, тем менее эффективно ИИ создавал желаемую иллюстрацию. Если с простым объектом, таким как кошка, он справлялся хорошо, то с более сложными и детальными иллюстрациями мы получали результат в стиле Кафки.

В Midjourney вы не можете просто «сделать мяч больше» или «заставить персонажа улыбнуться» — вы должны изменить всё изображение разом.

Решение этой проблемы путем создания коллажей из нескольких результатов — это выход, но где грань между тем, чтобы нарисовать иллюстрацию самому и вручную исправить работу ИИ?

ИИ — это не волшебная коробка, которая сразу же даст вам «идеальное» изображение, которое вы ищете. Наоборот, хорошие изображения получаются в результате длительного диалога между человеком и ИИ. Человек также должен хорошо понимать художественный стиль и обладать творческим видением.

Другая проблема заключается еще и в том, что до сих пор нет хорошего решения для анимации (по крайней мере, я о нем не знаю). Если нужна плавно анимированная обложка для статьи, вам поможет лишь человек.

Оценка

Давайте взвесим все «за» и «против», чтобы принять окончательное решение и подсчитаем расходы.

Какую из иллюстраций вы считаете более удачной?

Слева — иллюстрации обложек к нашим блог-постам, созданные дизайнерами-людьми, справа — иллюстрации, созданные с помощью Midjourney.

Потраченное время

Создание иллюстраций с помощью Midjourney заняло от 20 минут до 2,5 часов активного времени «арт-директорства». Можно быстро добиться достойного результата, но если уделить времени больше, то и результат будет лучше.

Работа с художниками-людьми заняла от 6 дней до 2 недель, но потребовала всего 0,5-1 часа активного времени на создание иллюстрации.

Это классический компромисс: вы можете либо доверить все опытному художнику, либо тщательно контролировать каждый шаг процесса работы ИИ. Лично я бы выбрал первый вариант.

Финансовые затраты

С точки зрения финансовых затрат, ИИ предсказуемо выходит вперед. Стандартное индивидуальное членство на месяц стоит всего $30 (примерно 2 000 ₽ — прим. переводчика), а полученные изображения можно использовать без каких либо ограничений.

Однако, если вы используете изображения как сотрудник компании, доход которой превышает 1 миллион долларов в год, вам необходимо приобрести «Корпоративный» план за $600 в год (примерно 42 000 ₽ — прим. переводчика).

Мы тратим около $600 в месяц на иллюстрации, выполненные художниками-людьми. Экономическая разница очевидна.

Так кто же победил?

В результате эксперимента мы обнаружили, что и люди, и искусственный интеллект отлично справляются с определенными задачами. Таким образом, мы рассматриваем возможность использования Midjourney в следующих сценариях:

Когда у нашего дизайнера, он же «оперативный инженер», есть свободное время для активной генерации изображений.
Когда идея иллюстрации проста и не включает в себя множество объектов со сложными взаимодействиями между ними.
Когда иллюстрация нужна быстро и нет возможности ждать, пока будут утверждены и готовы реальные 3D-рендеры.

🤖 ПС: эта статья и изображение на обложке к ней были частично созданы ИИ (и перевод тоже — прим. переводчика).