Специально для моих читателей я перевел очень интересное исследование Трэвиса Тернера, где он сравнивает человека и ИИ.
🇬🇧 Оригинальная статья - evilmartians.com/chronicles/midjourney-vs-human-illustrators-has-ai-already-won
В эпоху искусственного интеллекта способность генерировать реалистичные изображения на основе текстовых подсказок больше не является далекой футуристической концепцией — это реальность сегодняшнего дня. Так пора ли дизайнерам передать часть (или всю) свою работу искусственному интеллекту? В этой статье мы сравним иллюстраторов-людей с искусственным интеллектом и попытаемся понять, прошли ли мы уже точку невозврата. Мы дадим одинаковые подсказки и рекомендации человеку и ИИ, и сравним получившиеся иллюстрации друг с другом.
В мире цифровой иллюстрации быстрое и точное создание сложных 3D-изображений всегда было сложной задачей. Но благодаря новейшим версиям моделей ИИ преобразования текста в изображение, таким как Midjourney, DALL-E и Stable Diffusion, этот процесс может стать значительно проще и эффективнее.
Давайте кратко рассмотрим каждую из этих моделей.
Популярные модели искусственного интеллекта для преобразования текста в изображение
DALL-E — это продукт второго поколения, разработанный некоммерческой организацией OpenAI (поддерживаемой, в частности, Илоном Маском). Она была обучена на миллионах стоковых изображений и, на мой взгляд, превосходит остальные в создании фотореалистичных результатов.
Stable Diffusion, представленная в августе 2022 года, является проектом с открытым исходным кодом, которая позволяет пользователям загружать и запускать её программное обеспечение локально. Из всех упомянутых генераторов изображений ИИ, Stable Diffusion оказала наибольшее влияние на рынок, позволив создателям переобучить модель для конкретной задачи и продавать ее как услугу.
Midjourney — это стартап, основанный Дэвидом Хольцем, который ориентирован на арт-сообщество. С моей точки зрения, он предлагает самые дикие творческие возможности из всех этих моделей. Более того, со своей 4-той альфа-версии (выпущенной в ноябре 2022 года) она начала производить поразительно качественные результаты — почти неотличимые от реального человека.
Технология существует! Она доступна каждому! А её результаты поразительны! Мне как дизайнеру, стоит задуматься: а не пора ли наконец делегировать часть моей работы искусственному интеллекту?
Начинаем эксперимент
Для этой задачи мы будем использовать Midjourney. Мне сразу же пришла в голову задача, которая хорошо подходит для сравнения человека и ИИ: почти каждую неделю наш блог (речь идёт о evilmartians.com — прим. переводчика) публикует статьи, каждая из которых требует уникальной, тематически подходящей иллюстрации. Их создают наши дизайнеры или один из нескольких внештатных иллюстраторов. Все эти дизайнеры, что очень важно, — люди.
В мои обязанности входит художественное руководство: предлагать концепции, при необходимости корректировать композиции и следить за соблюдением технических параметров.
Некоторые иллюстраторы работают с нами уже довольно давно, поэтому в целом моё «арт-директорство» минимально. Однако этот процесс все равно занимает в среднем 1-2 недели. В течение этого времени нам приходится «сложа руки» ждать эскизов и рендеров.
Эти иллюстрации также имеют определенный стиль. Нам важно, чтобы 90% обложек были выполнены в изометрическом 3D-виде, имели достаточно «пластичный» и яркий вид, а также однотонный фон. Типичный размер иллюстрации — 1200×1000 пикселей.
Давайте возьмем эти данные за основу для нашего эксперимента.
Что касается концепций: мы будем использовать три иллюстрации, уже созданные для нашего блога. В частности, мы скопируем оригинальный запрос, который мы отправили нашим иллюстраторам-людям, и попробуем использовать его в качестве подсказки для Midjourney.
Метрики
Для вынесения финальной оценки, мы выделим несколько пунктов, которые будем использовать для правильной оценки результата:
- Активное время, затраченное на работу иллюстратора по сравнению с нейросетью.
- Общее время создания, от запроса до конечного результата.
- Сравнение приблизительных финансовых затрат.
- Какая картинка в итоге выглядит более привлекательной.
Задание №1: кошка и мяч
Человек-художник
Запрос, который мы отправили иллюстратору:
«Мы пишем статью о миграции с CircleCI на GitHub Actions. Их логотипы — круг и кот (см. вложения). Идея простая — кот играет с фрисби, мячом или другим круглым предметом. Сможете ли вы создать самого милого котика в мире? Вы даже можете сделать его немного марсианином, если хотите».
Через 4 дня художник прислал довольно подробные рендеры, выполненные в красивом «игрушечном» стиле и отвечающие всем техническим параметрам:
Мы взяли зеленую версию с мячом. Единственное, мы попросили изменить форму хвоста и размер мордочки кота.
Результат был готов на следующий день. И он всем очень понравился. В общей сложности процесс занял 6 дней, с активным «арт-директорством» максимум полчаса.
ИИ-художник
В Midjourney все начинается с подсказки, которую вы отправляете в специальный чат Discord:
/imagine: pixar style 3d image of the cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4
Последние две команды являются настройками: ar — это соотношение сторон, а v 4 будет использовать самую новую версию Midjourney для получения наиболее качественных результатов. pixar style 3d указывает на стиль, к которому я хотел бы обратиться.
Вот результат, который я получил спустя мгновение:
Хорошо, это выглядит забавно, но наш классический «пластиковый» стиль отсутствует. Давайте добавим слово «пластиковый» в подсказку:
/imagine: pixar style 3d of a toy plastic cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4
Теперь она определенно выглядит пластмассовой, но очень стремной! Да и некоторые части тела отсутствуют.
Давайте повторим задание, но постараемся сделать кота черным и более похожим на талисман GitHub:
/imagine: pixar style 3d of a black toy plastic cat in a spacesuit playing with a ball on solid green background --ar 3:2 --v 4
Я повторил задание несколько раз, и на мой взгляд композиции всегда не хватало динамики. Давайте попробуем добавить несколько слов, обозначающих движение:
plastic toy cat in a spacesuit jumping and playing with a ball, black on solid green background, Pixar style isometric 3d render --ar 3:2 --v 4
Наконец то композиция выглядит интересно и довольно динамично. Слово jumping (прыжки — прим. переводчика) сразу добавило недостающий импульс. Осталось только придумать несколько вариаций:
Теперь давайте повысим разрешение идеального для меня варианта:
Midjourney не очень хорошо справляется с однородными фонами, которые требует наш блог. Поэтому я использую еще один инструмент под названием Remove.bg для окончательной обработки изображения.
На всю эту работу у меня ушло примерно полтора часа активного времени.
Задание №2: марсианский космический корабль
Художник-человек
Как и в случае с предыдущим изображением, мы предложили идею, но на этот раз она была более расплывчатой:
«Привет! Скоро у нас будет большое событие — запуск нашего нового сайта. Вместе с релизом мы хотим опубликовать статью о нашей работе над ним. Для иллюстрации мы бы хотели: белый фон, возможно, с цветными пятнами в центре, и белый объект на нем, или радужный объект на чисто белом. Для концепции: что-то о новом марсианском звездолете, ярком и блестящем».
Через 8 дней (спешить с этой статьей было некуда) иллюстратор прислал эскизы различных космических кораблей в футуристическом стиле и один вариант «изнутри космического корабля».
Мы выбирали 2 и 5 варианты. Еще через 5 дней иллюстратор присылает хорошо детализированные рендеры:
После выбора космического корабля и экспериментов с формой планеты мы получили окончательный результат. В целом это заняло 2 недели, но не более часа активного «арт-директорства».
ИИ-художник
Отправляем запрос:
/imagine: pixar style 3d composition of the martian spaceship and tiny astronaut pearlescent on white background --ar 3:2 --v 4
На этот раз я был впечатлен первым результатом! Мне нравится, сходство корабля с персонажем «В поисках Немо», и я думаю, что это хорошо иллюстрирует идею нового марсианского звездолета. При этом он не белый и не перламутровый, но мне он все равно нравится.
Остановимся на наиболее перспективном из них:
Опция Light upscale redo поможет избавиться от «грязной» детализации:
Прогоняем иллюстрацию через Remove.bg. И иллюстрация готова к публикации.
Весь процесс занял у меня 20 минут активного времени. Это было быстро!
Задача №3: весы равновесия
Человек-художник
«Нам нужна иллюстрация для новой статьи. Она о нашем проекте, который помогает продавцам eBay торговать на крупных европейских торговых площадках и получать больше прибыли. Пока у меня есть несколько идей. Первая — о двух цилиндрических шляпах, одна поменьше, другая побольше. Кролик прыгает в ту, что больше. Вторая — о весах или разновесах, на одной стороне которых немного товаров (посылки, подарки), а на другой их много».
Нашему художнику понравилась вторая идея, и через 6 дней мы получили первые эскизы. Еще 3 дня ушло на создание рендера:
Мы лишь попросили изменить цвет фона на тот, который ассоциируется с брендом. И всё было готово на следующий день.
В общей сложности на это ушло 10 дней, при этом активное время «арт-директорства» составило полчаса.
ИИ-художник
Создаем запрос:
/imagine: plastic toy balance scales with one parcel on one side and multiple parcels on the other, in greens, yellows and red, solid blue background, Pixar style isometric 3d render --ar 3:2 --v 4
Эта текстовая подсказка звучит довольно простой. Не так ли? Но, как ни странно, для ИИ это звучало страшно сложной задачей. Я повторял подсказку снова и снова, меняя типы вещей на шкалах, но продолжал получать сюрреалистические конфигурации:
По какой-то причине ИИ начал выдавать реалистичные картинки только тогда, когда я указал, что пластмассовая игрушка должна быть серебряной. Видимо, в сознании ИИ эта конфигурация слов как-то обрела смысл. Но комбинация весов и подарков, к сожалению, так и не заработала:
После двух с половиной часов переписки с ИИ я был полностью измотан и решил просто увеличить наиболее «правдоподобный» результат. Ну хоть фон этот раз был уже однородным.
Подведём итоги
Проведя этот эксперимент, я обнаружил, что чем сложнее и продуманнее концепция, тем менее эффективно ИИ создавал желаемую иллюстрацию. Если с простым объектом, таким как кошка, он справлялся хорошо, то с более сложными и детальными иллюстрациями мы получали результат в стиле Кафки.
В Midjourney вы не можете просто «сделать мяч больше» или «заставить персонажа улыбнуться» — вы должны изменить всё изображение разом.
Решение этой проблемы путем создания коллажей из нескольких результатов — это выход, но где грань между тем, чтобы нарисовать иллюстрацию самому и вручную исправить работу ИИ?
ИИ — это не волшебная коробка, которая сразу же даст вам «идеальное» изображение, которое вы ищете. Наоборот, хорошие изображения получаются в результате длительного диалога между человеком и ИИ. Человек также должен хорошо понимать художественный стиль и обладать творческим видением.
Другая проблема заключается еще и в том, что до сих пор нет хорошего решения для анимации (по крайней мере, я о нем не знаю). Если нужна плавно анимированная обложка для статьи, вам поможет лишь человек.
Оценка
Давайте взвесим все «за» и «против», чтобы принять окончательное решение и подсчитаем расходы.
Какую из иллюстраций вы считаете более удачной?
Потраченное время
Создание иллюстраций с помощью Midjourney заняло от 20 минут до 2,5 часов активного времени «арт-директорства». Можно быстро добиться достойного результата, но если уделить времени больше, то и результат будет лучше.
Работа с художниками-людьми заняла от 6 дней до 2 недель, но потребовала всего 0,5-1 часа активного времени на создание иллюстрации.
Это классический компромисс: вы можете либо доверить все опытному художнику, либо тщательно контролировать каждый шаг процесса работы ИИ. Лично я бы выбрал первый вариант.
Финансовые затраты
С точки зрения финансовых затрат, ИИ предсказуемо выходит вперед. Стандартное индивидуальное членство на месяц стоит всего $30 (примерно 2 000 ₽ — прим. переводчика), а полученные изображения можно использовать без каких либо ограничений.
Однако, если вы используете изображения как сотрудник компании, доход которой превышает 1 миллион долларов в год, вам необходимо приобрести «Корпоративный» план за $600 в год (примерно 42 000 ₽ — прим. переводчика).
Мы тратим около $600 в месяц на иллюстрации, выполненные художниками-людьми. Экономическая разница очевидна.
Так кто же победил?
В результате эксперимента мы обнаружили, что и люди, и искусственный интеллект отлично справляются с определенными задачами. Таким образом, мы рассматриваем возможность использования Midjourney в следующих сценариях:
- Когда у нашего дизайнера, он же «оперативный инженер», есть свободное время для активной генерации изображений.
- Когда идея иллюстрации проста и не включает в себя множество объектов со сложными взаимодействиями между ними.
- Когда иллюстрация нужна быстро и нет возможности ждать, пока будут утверждены и готовы реальные 3D-рендеры.
🤖 ПС: эта статья и изображение на обложке к ней были частично созданы ИИ (и перевод тоже — прим. переводчика).