Провести эксперимент со своей личной фотографией - такое желание возникает у многих людей. Это нормальное любопытство. В нейросети Kandinsky экспериментировать с личными фотографиями можно бесконечно, ведь она бесплатная.
В этом уроке мы будем использовать для генерации Телеграмм-бот. Ссылка на него есть во втором уроке "Как пользоваться нейросетью Kandinsky: где найти и использовать онлайн".
только Телеграмм-бот умеет комбинировать два изображения и переносить стиль с одного изображения на другое.
ВАЖНО: для доступа к тем режимам, про которые я рассказываю в этом уроке, надо включить модель 2.2. Как это сделать я подробно рассказала во втором уроке (ссылка выше).
В качестве модели для урока я выбрала Мэрилин Монро, ведь её внешность известна всем. А значит можно легко определить насколько близки к оригиналу сгенерированные изображения. Согласитесь, хочется на выходе получить портрет похожий на самого себя.
Режим "Смешивание"
Выбор режимов на смартфоне у вас будет открыт сразу. В браузере на ПК надо нажать на иконку в строке ввода сообщения рядом со скрепкой.
Далее бот будет подсказывать следующие действия.
Как происходит смешивание изображений
Нейросеть анализирует обе картинки и определяет на них основные моменты: тип лица и волос, цветовую гамму, стиль изображения и атмосферу в целом.
Искусственный интеллект вычленяет главное и генерирует средний результат. По сути картинка заменяет словесное описание, только вы заранее точно не знаете, что именно нейросеть "прочитала" на фото.
В любом случае - результат усреднённый. Будут ли при этом сохраняться черты лица? Судите сами.
Варианты смешивания
Портрет + портрет
Такое смешение гарантированно даёт портрет. Сгенерированный портрет будет иметь смешанные черты лица. Но сохранятся яркие признаки образа - от Мэрилин Монро стабильно сохраняются белые короткие пышные волосы, форма губ и цвет помады.
В пару я выбрала портреты с ярко выраженными стилями. Посмотрите, как они влияют на результат генерации.
Средний план + совпадающий фон + стиль
Следующий вариант смешения - с совпадающим фоном. На фото с Мэрилин Монро чёрный фон, поэтому в пару берём только фото с тёмным фоном.
В первой части галереи будет смешение двух лиц и стилей. Во второй части - одно лицо и стиль. Обратите внимание, если но втором фото нет лица, то результат генерации ближе к оригиналу.
Средний план + контрастный фон + стиль
Для примера контрастного фона возьмём в пару картинки с белым фоном. Тёмный фон при смешении доминирует, его зерно явно весомее. Тёмный фон применится примерно в 90% генераций.
Первые две генерации в подборке - смешение черт лица. Третье и четвёртое фото - пример смешения со стилем и объектом. Черты Мэрилин Монро не сохранились, но они всё равно ближе к оригиналу.
Портрет + котики + эмоция
Куда же без котиков! Для этой генерации я взяла фото Мэрилин Монро с ярко выраженной эмоцией и шесть разных кошечек. И даже тут нейросеть сохраняет пышный блонд и выразительные губы. Это и есть зерно образа самой популярной киноблондинки.
Чёрно-белый портрет + 3D-персонажи
Мы добрались до самого забавного. Такое смешение кажется странным - объединить лицо человека и мультяшной 3D-зверушки. Но результат получается замечательный. На мой взгляд это отличный вариант для аватара. Отличительные черты человека сохраняются, и если бы такие аватарки стояли на профиле реальной Мэрилин Монро, то схожесть определилась бы с первого взгляда.
Если вам нравятся игривые аватарки - пользуйтесь.
Перенос стиля
Возможность переноса стиля на изображения на текущий момент есть только в модели 2.2.
Переносить стиль можно с картинки, можно с текста.
В любом случае первым мы загружаем картинку или фотографию, на которую будем переносить стиль. Вторым шагом пишем текст или подгружаем второе изображение.
Результат отличается от того, что получается в режиме смешивания. Нейросеть максимально сохраняет основной силуэт базового изображения.
Сравните.
Подведём итог
В Телеграмм-боте Kandinsky можно сгенерировать картинку путём смешивания двух изображений. На других платформах для доступа к нейросети такой функции нет.
Этот способ генерации позволяет:
- сделать стилизацию портрета если у вас нет цели сохранить черты лица;
- сгенерировать мультяшный аватар;
- применить понравившийся вам стиль с любого изображения.
Плюсы
- Графический промт (изображение) заменяет текстовый промт, если нейросеть не понимает ваше словесное описание.
- В 80% процентах случаев у вас получится сгенерировать нормальное лицо без "потёкших" глаз и кривых носов.
Минусы
- Невозможно сохранить исходные черты лица.
- Невозможно предугадать какое именно зерно нейросеть считает с фотографии.
Надеюсь эта статья была для вас полезна. До встречи в новом уроке "Нейросеть Kandinsky: смешиваем картинку и текст. Как подобрать изображение для референса".
Уже вышли уроки о правовых основах нейросети, доступных платформах для генерации, основы составления промта. А впереди ещё много чего интересного!
Все уроки курса ищите в этой подборке "Курс по Kandinsky":