Найти тему

Пульт управления "Кандинским": смешивание картинки и текста

"В далёкой-далёкой галактике", "Кандинский" 2.1, экран, пиксели, 2023. Фрагмент.
"В далёкой-далёкой галактике", "Кандинский" 2.1, экран, пиксели, 2023. Фрагмент.

Продолжаю не торопясь разбираться в пользовательских настройках телеграм-бота "Кандинского".

На всякий случай напомню, что он предлагает четыре режима генерации изображений: по тексту, по картинке и тексту, смешивая две картинки и модифицируя одну картинку.

Первой я пользуюсь практически всегда - с ней всё понятно. Четвёртая разобрана по косточкам в одной из моих прошлых публикаций. Сегодня займусь второй: смешиванием картинки и текста.

Как несложно догадаться, вы загружаете изображение, а потом добавляете к нему текстовое уточнение. Разумно делать его таким, чтобы оно сочеталось с загруженной картинкой согласно какой-нибудь логике: или по форме, или по содержанию. В этом случае результат, скорее всего, будет выглядеть органично.

Перейдём сразу к практике. Опытным путём мной установлено, что слово "кот" даёт любопытные и часто неожиданные результаты в комбинации с чьим-либо (человеческим) портретом, а слова на космическую тему вроде "солнце", "галактика", "космос" - почти всегда красивые изображения в комбинации с чем угодно. С котами развлекайтесь осторожнее, можно залипнуть очень надолго: все ваши знакомые, вовремя не спрятавшие от вас свои фото, автоматически попадают в группу риска по окошачиванию.

Да чего далеко ходить: вот вам примеры. Правда, для них я использую стоковые фотографии случайных людей. Вам всё равно чьи, а мне с моими друзьями и знакомыми ещё жить.

А теперь листайте галереи.

Гибрид №1.

Результат смешивания фотопортрета и слова "кошка". Даже очень внимательный зритель не найдёт в кошаке "Кандинского" ничего общего с его человеческим прототипом.

Гибрид №2.

Результат смешивания портрета человека и слова cat. Здесь можно при большом желании даже усмотреть некоторое портретное сходство.

Гибрид №3.

Ну и, наконец, совершенно непонятно, кто у "Кандинского" на картинке, но это явно ни кошка, от которой остались только уши и хвост, ни девушка с оригинальной фотографии.

Как видите, итоговые ГМО по соотношению "кот/человек" могут варьировать в пределах от 95% кота на 5% человека до 5% кота на 95% человека, а сходство с оригиналом совсем не гарантировано. Предсказать результат невозможно, можно только пробовать загружать разные фотографии.

Интересно, что независимо от положения головы человека на исходном фото, котолюди "Кандинского" всегда смотрят в светлое будущее в сторону и немного вверх.

Теперь попробуем не-котов.

Для генераций буду использовать фотографии чего попало, снятые на камеру смартфона, что называется, на ходу. Они на последнем слайде каждой галереи. Описательную часть ограничу одним-двумя словами, чтобы основную информацию для генерации "Кандинский" брал не из текста, а из фотографии.

Теперь попробую расширить текстовые описания.

И напоследок - опция "помощь друга". Я попрошу "Шедеврум" сгенерировать пару фотоизображений, а потом "Кандинский" их обработает. Пусть это будут... допустим, апельсин и гусеница (по отдельности).

В общем, к этому моменту должно быть понятно, как работает режим генерации по картинке и тексту, какие сочетания лучше подбирать и каких результатов ожидать.

В телеграм-боте остался один последний неизученный мной режим - смешивание двух картинок. Чувствую, что к подбору исходного материала нужно будет подойти со всей тщательностью и ответственностью. Если мне когда-нибудь и было суждено разобрать старые забытые папки с фотографиями на жёстком диске, то этот момент настал.

Беру запас еды, воды и открываю диск С. Скоро не ждите.