Есть в Телеграмм-боте Kandinsky функция "Смешивание картинки и текста". Но мало кто знает, что она может работать в профессиональном режиме. И тогда у вас будет возможность выбирать насколько сильно картинка или текст будут влиять на результат генерации. Этому и будет посвящён этот урок на моём бесплатном курсе по использованию нейросети Kandinsky.
В этом уроке мы продолжим использовать для генерации картинок Телеграмм-бот Kandinsky - профессиональный режим доступен только в этом чат-боте. Можете сразу открыть его по ссылке ниже.
Телеграмм-бот Kandinsky
Это уже второй урок о профессиональном режиме в нейросети Kandinsky. В предыдущем восьмом уроке "Нейросеть Kandinsky: генерируем картинки в профессиональном режиме" я очень подробно рассказываю о том, как он устроен и как на него перейти. Если вы ещё не читали урок №8, советую добавить этот урок в закладки и сначала изучить предыдущий урок. Тогда этот урок будет для вас эффективнее.
Как в Kandinsky поставить вес на картинку и текст
Для того, чтобы иметь возможность генерировать в профессиональном режиме, его надо включить. Это можно сделать двумя способами.
Первый способ - через Меню
В строке ввода текста найдите иконку меню. Вот так она выглядит на разных устройствах.
Затем выберите команду:
/profmode - включить/выключить профессиональный режим.
Второй способ - быстрый ввод
Для этого достаточно в строке ввода текста напечатать символ "/" и появятся подсказки с доступными командами:
Выберите из списка /profmode.
Когда включать профессиональный режим
Если отвечать кратко: "На любом этапе генерации до того, как ввели текст промта".
При смешивании картинки и текста бот предложит вам сначала прикрепить картинку, и только после этого отправить текст. Вызов профессионального режима можно сделать до того, как вы выбрали вариант генерации по тексту и картинке, когда уже нажали на кнопку выбора и даже после того, как уже отправили картинку.
ВАЖНО: включать профессиональный режим надо для каждой генерацией, потому что отключается он автоматически.
Зачем нужны веса при смешивании картинки и текста
И вот это самый главный вопрос. Ведь обычно смешивание текста и картинки даёт хороший результат с обычными настройками. Но исключения бывают всегда. При подготовке этого урока я долго искала случаи, в которых вес может быть полезен. И в конце концов нашла - когда готовила статью для своего отдельного канала "Вязание и нейросеть".
Мне надо было получиться вязаный вариант нарисованной картинки. И вот тут я столкнулась с ситуацией, когда текстовая часть, а именно стиль, содержит в себе огромный объём информации в базе обучающих данных самой нейросети.
Постановка веса на текст и фото позволяет сбалансировать влияние стиля на результат генерации
Давайте рассмотрим на конкретных примерах.
Мы будем использовать комбинированный тип промта, где половину информации (зерно) искусственный интеллект берёт из картинки, половину из текста.
Картинки: нарисованные нейросетью животные.
Стиль для генерации: амигуруми.
Амигуруми - это японское слово, которое означает "вязаная мягкая игрушка, связанная крючком". Амигуруми могут быть животными, персонажами, едой, предметами домашнего обихода или чем угодно ещё, что вы можете себе представить. Они очень популярны в Японии и во всем мире как форма кавайной культуры.
Как видите одно слово содержит в себе огромный объём информации. Игрушка не просто связана крючком, у неё есть ещё и определённый внешний вид. И если смешать картинку и текст в обычном режиме, доля амигуруми получается очень высокой.
Выбираем баланс веса в промте
Для того, чтобы снизить влияние веса "амигуруми" на сгенерированный результат, воспользуемся весом 0,7 0,3. Если вы включили профессиональный режим, на финальном шаге Телеграмм-бот предложит вам выбрать вес.
Сейчас доступны три варианта постановки весов, при этом 0,5 0,5 соответствует стандартному режиму смешивания. Удобно, если вы передумали усиливать влияние какой-то части промта.
ВАЖНО: первая цифра всегда относится к картинке, вторая цифра всегда относится к тексту.
Для наглядности я сделаю генерации во всех трёх вариантах постановки веса. Результат, как говорится очевиден.
Меняем стиль картинки в нейросети
Вес 0,5 / 0,5
Вместо кошки получился мишка, потому что объем информации про амигуруми вытесняет информацию с картинки. Нейросеть использует только цветовую гамму.
Вес 0,3 / 0,7
Получили амигуруми в чистом виде и немного цвета в картинки-референса. Судя по частоте генерирования медвежат, это самая распространённая игрушка амигуруми.
Вес 0,7 / 0,3
Вот мы и подошли к тому весу, при котором амигуруми выдаст вязаную игрушку в технике амигуруми, но сохранит информацию о картинке-референсе.
Дорабатываем стиль сгенерированной в нейросети картинки
Бывают не такие кардинальные ситуации. Например, вы сразу только по тексту генерируете картинку, но стиль не дотягивает до того качества, который вам нужен.
Посмотрим так на примере амигуруми.
Сначала я сгенерировала рыжего кота-йога в позе лотоса в стиле амигуруми. Игрушка получилась вязаной только на половину. Нейросеть Kandinsky 2.1 в целом очень старательно прорисовывает кошачьи мордочки. В результате у вязаной игрушки мордочка без петель.
Пропускаем получившуюся картинку через "Смешивание картинки и текста" в профессиональном режиме с весом 0,7 / 0,3 и получает отличный прототип игрушки "Кот-йог".
Подведём итог
Постановка веса для картинки и текста поможет вам отрегулировать влияние стиля из текстовой части на картинку-референс - используйте для этого вес 0,7 / 0,3.
Если для вас важнее та информация, которую вы прописали в текстовой части, а картинки-референса вам нужно взять, например, цветовое решение - используйте вес 0,3 / 0,7.
С помощью смешивания картинки и текста с постановкой веса можно доработать не очень удачный вариант другой генерации.
Эффективнее постановка веса работает на стилях.
Надеюсь эта статья была для вас полезна - благодарность в виде лайка меня очень порадует. До встречи в новом уроке "Нейросеть Kandinsky: как сгенерировать картинку любого размера с помощью бесконечного полотна".
Если вам интересна тема изменения картинок с помощью нейросети и вы хотите продвинуться ещё дальше, советую подписаться на канал и следить за новыми уроками. На следующей неделе мы переходим к изучению инструментов по работе с фотографиями на сайте Fusion Brain.
Все уроки курса ищите в этой подборке: