Найти тему

Как пользоваться нейросетью Kandinsky: смешиваем картинку и текст. Как подобрать изображение для референса

Оглавление

В этом уроке мы будем генерировать иллюстрации со сложным сюжетом. Сложность в том, что происходящее действие незнакомо нейросети в том значении, в каком мы его используем. Судя по комментариям к статьям на моём канале, с такой проблемой сталкиваются многие. Решение есть - давайте разбираться.

Редкий или сложный сюжет для генерации

Мозговой штурм - именно такую иллюстрацию мне понадобилось сделать на этой неделе для статьи на педагогическом канале. Методом мозгового штурма сейчас пользуются достаточно часто в разных профессиях. И поэтому можно предположить, что в базе для обучения нейросети должно быть много таких фотографий. Но практика показала, что это не так.

Моя цель: получить изображение большой группы в деловой обстановке, обсуждение идеи, с большим количеством деталей в окружении (канцтовары, столы, стулья, шкафы и т.п.).

В этом уроке мы будем использовать для генерации Телеграмм-бот Kandinsky. Можете сразу открыть его по ссылке.

Телеграмм-бот Kandinsky

Для проверки первую генерацию я всегда делаю с простым промтом без дополнительных стилей. Это даёт представление о базе знаний нейросети.

Если вам ещё не знакомо понятие "промт" - советую прочитать урок №3 этого бесплатного курса по работе с нейросетью Kandinsky "Нейросеть Kandinsky: что такое промт и как его написать".

Kandinsky хоть и прошёл обучение на большом объёме изображений, но "мозговой штурм" этой нейросети не известен. Вот что генерирует ИИ по запросу на русском и на английском языках. Совсем не то, что мне надо.

Режим "Смешивание картинки и текста"

В третьем уроке этого курса мы рассматривали типы промтов. Один из вариантов - комбинированный промт, когда одновременно для описания используются фото и текст. Фото в таком промте можно сравнить с референсом для иллюстраторов и дизайнеров.

Именно комбинированный промт позволяет решить проблему генерации изображения с неизвестным сюжетом.

Выбираем картинку-референс для нейросети

Давайте посмотрим как влияют на результат генерации картинки-референсы. Я выбрала два рисунка и три фотографии с разным стилем и сюжетом.

Так же я буду изменять детали текстовой части промта - на иллюстрациях изменения выделены красным цветом.

В уроке №5 "Генерируем личное фото в нейросети бесплатно: на примере Мэрилин Монро" мы познакомились с понятием "зерно" или seed фотографии. При считывании изображения в режиме "Смешивание картинки и текста" нейросеть точно так же выделяет зерно - особенности. Но пользователь уже может повлиять на результат генерации дополнительным текстом.

Генерация №1

Как обычно я начинаю с простого варианта промта: указываю, что мне нужна именно группа людей и в мультяшном стиле.

-3

Генерация №2

С людьми у Kandinsky часто получается не очень удачно, а вот с кошками дела идут лучше. Так как нужна мультяшная публикация - меняем людей на кошек.

Промт пишем развёрнуто, с указанием всех ключевых моментов: как выглядят и что делают. При этом я не вдаюсь в подробности одежды, не пишу желаемый цвет. Всю эту информацию нейросеть берёт из зерна картинки-референса.

-4

Генерация №3

Результат получился уже лучше, но мне не хватает эмоций и кошек хочется больше. Поэтому в текстовой части пишем "группу милых кошек" и меняем картинку.

Как видите эмоция и пожатие рук взяты с референса, я их никак дополнительно не прописывала в промте.

-5

Генерация №4

Канал, для которого я делаю иллюстрацию, о дополнительном образовании и в кадре должны быть женщины (90% педагогов женщины). Делаем уточнение в промте - не просто одежда, а платья.

И обратите внимание - я убрала слово "группа" и опять сгенерированы всего две кошки.

-6

Генерация №5

Поменяем референс и возьмём промт из генерации №3.

При одинаковом тексте сгенерированное изображение имеет совсем другой сюжет. Точно передано зерно, ради которого я и выбрала этот референс - схема на листе бумаги, люди сидят по кругу за столом, даже кружки с кофе изображены.

-7

Генерация №6

Промт из генерации №4 при смешивании с другой картинкой даёт новый результат. Зерно референса попробуйте определить сами.

-8

Генерация №7

Для финальной генерации этого урока возьмём самый первый референс и попробуем сделать кошек-педагогов. Можно сравнить с первым результатом с людьми и выявить зерно референса. Как думаете, какое зерно считал искусственный интеллект?

-9

Подведём итог

Если результат генерации не соответствует вашим ожиданиям, то скорее всего у нейросети пока ещё мало информации о генерируемом объекте или действии.

В таких случаях целесообразно использовать режим "Смешивание картинки и текста" в Телеграмм-боте Kandinsky.

В качестве референса выбирайте изображение с чётко выраженными действиями, эмоциями, цветом и другими особенностями, которые вам необходимо получить.

В текстовой части промта опишите словами то, что именно вы хотите видеть на будущей картинке.

Определяйте считанное зерно и подбирайте новые референсы.

Надеюсь эта статья была для вас полезна. До встречи в новом уроке "Нейросеть Kandinsky: как улучшить картинки из нейросети "Шедеврум".

Уроки первой недели курса уже на канале. А впереди ещё много полезного!

Все уроки курса ищите в этой подборке:

Курс по Kandinsky