Найти в Дзене

Как пользоваться нейросетью Kandinsky: генерируем картинки в профессиональном режиме

Оглавление

Знакомая ситуация: вы уже пользуетесь нейросетями, смешиваете картинку с картинкой, картинку с текстом, но хочется большего? Уже думаете: "Мне вот отсюда бы побольше, а вот отсюда поменьше". Поздравляю - вы дошли по профессионального уровня! Чему и будет посвящён этот урок моего курса по нейросети Kandinsky.

Приветствую вас на восьмом уроке бесплатного курса по работе в нейросети Kandinsky. Первые семь уроков вы можете найти в подборке на этом канале.

В этом уроке мы продолжим использовать для генерации картинок Телеграмм-бот Kandinsky - профессиональный режим доступен только в этом чат-боте. Можете сразу открыть его по ссылке ниже.

Телеграмм-бот Kandinsky

Зачем нужен профессиональный режим генерирования

Представьте ситуацию, что вы нашли два изображения. Я взяла картинки с котиками со своего канала "Картинки с котиками. Пушистый Наблюдатель".

-2

Но вы хотите, чтобы ваша будущая картинка была больше похожа на первую, и чуть-чуть на вторую. Например, вот так. Правда получилось? И ведь это не случайность, а закономерность. Полистайте галерею.

Ини наоборот, пусть от первой будет немного, а вот от второй картинки будет основная атмосфера, стиль и вообще ощущение. И ведь тоже получилось, согласитесь?

Как перейти на профессиональный режим

Для того, чтобы включить профессиональный режим генерации в Телеграмм-боте Kandinsky надо воспользоваться командой:

/profmode - включить/выключить профессиональный режим.

Два способа включения:

  1. Через Меню - кнопка слева от строки ввода сообщения.
  2. Через слеш (косая черта) - просто напечатайте её в строке ввода текста и всплывёт подсказка со всеми командами.

Очерёдность включения: на любом этапе до того, как вы загрузили вторую картинку.

Если вы сразу знаете, что будете использовать профессиональный режим - включите его, а затем выбирайте "Смешивание картинок". Но даже если вы уже загрузили первую картинку и вот тут вдруг поняли, что вам нужен профрежим - включайте и он тоже сработает.

ВАЖНО: включение срабатывает только для одной генерации!

Разработчики назвали её "включить/выключить", но по факту отключение происходит автоматически, когда картинка сгенерирована.

Как работает профессиональный режим в Kandinsky

Вот что пишут о профессиональном режиме разработчики:

Профессиональный режим позволяет более тонко настроить модель под нужные запросы. В этом режиме доступные следующие функции: - Выбор весов в режимах смешивания - позволяет настроить, насколько сильно каждый элемент смешивания будет влиять на конечный результат. Веса представляют из себя два дробных числа от 0 до 1, сумма которых равна 1. Чем больше вес элемента, тем сильнее он влияет на результат.

И вот мы добрались до понятия "Вес". Напомню, что на прошлой неделе мы начали пользоваться понятием "Зерно".

Мои давние подписчики скорее всего уже знакомы с моими статьями и постами о весах в нейросети Midjourney. Советую прочитать статью "Рисуем в нейросети профессионально: как указать Midjorney на самое важное в будущем рисунке".

Итак, вернёмся к нейросети Kandinsky.

На соотношение смешивания картинок будут влиять цифровые значения веса, например 0,3 и 0,7 в сумме дают 1.

Но из чего этот вес состоит? Из зерна. Того самого, про который я рассказывала в уроке №5 "Нейросеть Kandinsky: генерируем картинку из личного фото (на примере Мэрилин Монро)".

Если вы пропустили урок №5, советую перейти сначала к нему, а потом вернуться к этому уроку. Тогда всё происходящее дальше вам будет понятнее. И не забудьте подписаться на канал, чтобы не пропустить новые уроки.

Что с чем смешивается

Перед тем, как взяться за этот урок, я посмотрела что уже есть в сети по этой теме. Нашла видео-урок, где автор смешивает собаку и шляпу. И сразу же столкнулась с самым распространённым заблуждением: если вес меньше, то и объект должен быть меньше.

Нет, это работает не так. Исключения бывают и я покажу пример. Но любое исключение подтверждает правило. Вес - это не про размер, это про степень влияния зерна.

Собака в шляпе

Для наглядности я взяла тоже собаку и шляпу. Но для чистоты эксперимента выбрала картинки:

  • с общим элементом зерна - белый фон;
  • с разным зерном - цвет основного объекта и сам объект.

При смешивании в соотношении 0,5 / 0,5 (такой тип смешивания происходит и без включения профессионального режима) мы ожидаемо получаем собаку в шляпе.

Потому что по сути наш промт выглядит вот так: голубая фетровая шляпа с полями, коричневая собака с длинной шерстью, мультяшный стиль, белый фон.

Веса 0,5 / 0,5
Веса 0,5 / 0,5

Поменяем распределение веса: шляпа 0,7; собака 0,3.

И это будет не маленькая собака в большой шляпе. Произойдёт распределение зерна. От шляпы нейросеть берёт всё, а вот от собаки ИИ берёт не объект, а признаки и характеристики.

На картинке с собакой основная характеристика: цвет. Именно поэтому для наглядности я выбрала противоположные цвета.

В результате нейросеть добавила коричневый элемент на шляпу.

Прежде чем листать галерею, включите логику и предположите, каким будет результат смешивания при соотношении веса: шляпа 0,3; собака 0,7.

Напишите в комментариях угадали ли вы результат генерации и если да, расскажите как к такому выводу пришли. Такая рефлексия полезна и для вас, и для остальных читателей.

Собака, шляпа и стиль

Вот теперь давайте посмотрим на исключение из правил - тот самый случай, когда есть маленькая собака в большой шляпе. Но не всё так просто.

Зерно шляпы: шляпа ведьмы, цветы, фиолетовый цвет, акварель, белый фон, стиль: акварель.

Зерно собаки: собака в профиль, синий фон, стиль: цианотипия, линейный рисунок.

С весами 0,5/0,5 всё отлично и ожидаемо. Даже стили смешались равномерно и цвет распределился. А вот при соотношении 0,7/0,3 собака не исчезла, как в предыдущем примере.

На первой картинке много объектов и один стиль. На второй картинке один объект и два стиля. В итоге распределение весов произошло на уровне стилей: акварель полностью вытеснила цианотипию и линейный рисунок. Но ведь 0,3 информации надо взять от этого зерна. А это собака.

Получается, что визуально мы видим маленькую собаку в большой шляпе. Но дело не шляпе, а в стиле.

Подумайте, какая часть зерна оказала влияние на третьей генерации в соотношении веса 0,3/07.

Веса, зерно и результат

Подбор картинок для смешивания с учётом зерна - это второй по значимости навык для промтера, после текстового промта. И в идеале картинки надо не выбирать осознанно, с пониманием какое зерно увидит нейросеть и что будет весомее.

Для тренировки этого навыка воспользуйтесь этими галереями. Попробуйте на основе генерации с весом 0,5/0,5 определить зерно каждой картинки. Затем предположите результат после смены соотношения весов.

Шпиц в шляпке

Щенок в каске

Подведём итог

При смешивании картинок смешиваются не объекты, а зерно изображения.

При распределении веса в профессиональном режиме вес влияет не на размер картинки, а на степень влияния веса зерна. При этом информация про объект может быть полностью исключена, так как приоритет отдаётся характеристикам и стилям.

При выборе картинки для смешивания надо ориентироваться на зерно. Чем меньше дополнительных объектов на изображении, тем чётче зерно. Например, если вам нужна собака, ищите картинку только собакой без людей, рук, деревьев и т.п.

Надеюсь эта статья была для вас полезна. До встречи в новом уроке "Нейросеть Kandinsky: как поставить веса на картинку и текст в промте".

Если вам интересна тема изменения картинок с помощью нейросети и вы хотите продвинуться ещё дальше, советую подписаться на канал и следить за новыми уроками. На следующей неделе мы переходим к изучению инструментов по работе с фотографиями на сайте Fusion Brain.

Все уроки курса ищите в этой подборке:

Курс по Kandinsky

Ещё на канале: