В этом уроке мы будем генерировать иллюстрации со сложным сюжетом. Сложность в том, что происходящее действие незнакомо нейросети в том значении, в каком мы его используем. Судя по комментариям к статьям на моём канале, с такой проблемой сталкиваются многие. Решение есть - давайте разбираться.
Редкий или сложный сюжет для генерации
Мозговой штурм - именно такую иллюстрацию мне понадобилось сделать на этой неделе для статьи на педагогическом канале. Методом мозгового штурма сейчас пользуются достаточно часто в разных профессиях. И поэтому можно предположить, что в базе для обучения нейросети должно быть много таких фотографий. Но практика показала, что это не так.
Моя цель: получить изображение большой группы в деловой обстановке, обсуждение идеи, с большим количеством деталей в окружении (канцтовары, столы, стулья, шкафы и т.п.).
В этом уроке мы будем использовать для генерации Телеграмм-бот Kandinsky. Можете сразу открыть его по ссылке.
Телеграмм-бот Kandinsky
Для проверки первую генерацию я всегда делаю с простым промтом без дополнительных стилей. Это даёт представление о базе знаний нейросети.
Если вам ещё не знакомо понятие "промт" - советую прочитать урок №3 этого бесплатного курса по работе с нейросетью Kandinsky "Нейросеть Kandinsky: что такое промт и как его написать".
Kandinsky хоть и прошёл обучение на большом объёме изображений, но "мозговой штурм" этой нейросети не известен. Вот что генерирует ИИ по запросу на русском и на английском языках. Совсем не то, что мне надо.
Режим "Смешивание картинки и текста"
В третьем уроке этого курса мы рассматривали типы промтов. Один из вариантов - комбинированный промт, когда одновременно для описания используются фото и текст. Фото в таком промте можно сравнить с референсом для иллюстраторов и дизайнеров.
Именно комбинированный промт позволяет решить проблему генерации изображения с неизвестным сюжетом.
Выбираем картинку-референс для нейросети
Давайте посмотрим как влияют на результат генерации картинки-референсы. Я выбрала два рисунка и три фотографии с разным стилем и сюжетом.
Так же я буду изменять детали текстовой части промта - на иллюстрациях изменения выделены красным цветом.
В уроке №5 "Генерируем личное фото в нейросети бесплатно: на примере Мэрилин Монро" мы познакомились с понятием "зерно" или seed фотографии. При считывании изображения в режиме "Смешивание картинки и текста" нейросеть точно так же выделяет зерно - особенности. Но пользователь уже может повлиять на результат генерации дополнительным текстом.
Генерация №1
Как обычно я начинаю с простого варианта промта: указываю, что мне нужна именно группа людей и в мультяшном стиле.
Генерация №2
С людьми у Kandinsky часто получается не очень удачно, а вот с кошками дела идут лучше. Так как нужна мультяшная публикация - меняем людей на кошек.
Промт пишем развёрнуто, с указанием всех ключевых моментов: как выглядят и что делают. При этом я не вдаюсь в подробности одежды, не пишу желаемый цвет. Всю эту информацию нейросеть берёт из зерна картинки-референса.
Генерация №3
Результат получился уже лучше, но мне не хватает эмоций и кошек хочется больше. Поэтому в текстовой части пишем "группу милых кошек" и меняем картинку.
Как видите эмоция и пожатие рук взяты с референса, я их никак дополнительно не прописывала в промте.
Генерация №4
Канал, для которого я делаю иллюстрацию, о дополнительном образовании и в кадре должны быть женщины (90% педагогов женщины). Делаем уточнение в промте - не просто одежда, а платья.
И обратите внимание - я убрала слово "группа" и опять сгенерированы всего две кошки.
Генерация №5
Поменяем референс и возьмём промт из генерации №3.
При одинаковом тексте сгенерированное изображение имеет совсем другой сюжет. Точно передано зерно, ради которого я и выбрала этот референс - схема на листе бумаги, люди сидят по кругу за столом, даже кружки с кофе изображены.
Генерация №6
Промт из генерации №4 при смешивании с другой картинкой даёт новый результат. Зерно референса попробуйте определить сами.
Генерация №7
Для финальной генерации этого урока возьмём самый первый референс и попробуем сделать кошек-педагогов. Можно сравнить с первым результатом с людьми и выявить зерно референса. Как думаете, какое зерно считал искусственный интеллект?
Подведём итог
Если результат генерации не соответствует вашим ожиданиям, то скорее всего у нейросети пока ещё мало информации о генерируемом объекте или действии.
В таких случаях целесообразно использовать режим "Смешивание картинки и текста" в Телеграмм-боте Kandinsky.
В качестве референса выбирайте изображение с чётко выраженными действиями, эмоциями, цветом и другими особенностями, которые вам необходимо получить.
В текстовой части промта опишите словами то, что именно вы хотите видеть на будущей картинке.
Определяйте считанное зерно и подбирайте новые референсы.
Надеюсь эта статья была для вас полезна. До встречи в новом уроке "Нейросеть Kandinsky: как улучшить картинки из нейросети "Шедеврум".
Уроки первой недели курса уже на канале. А впереди ещё много полезного!
Все уроки курса ищите в этой подборке: