558 подписчиков

Пульт управления "Кандинским": смешивание картинки и текста

2 июня 20232 июн 2023

2 мин

Продолжаю не торопясь разбираться в пользовательских настройках телеграм-бота "Кандинского". На всякий случай напомню, что он предлагает четыре режима генерации изображений: по тексту, по картинке и тексту, смешивая две картинки и модифицируя одну картинку. Первой я пользуюсь практически всегда - с ней всё понятно. Четвёртая разобрана по косточкам в одной из моих прошлых публикаций. Сегодня займусь второй: смешиванием картинки и текста. Как несложно догадаться, вы загружаете изображение, а потом добавляете к нему текстовое уточнение. Разумно делать его таким, чтобы оно сочеталось с загруженной картинкой согласно какой-нибудь логике: или по форме, или по содержанию. В этом случае результат, скорее всего, будет выглядеть органично. Перейдём сразу к практике. Опытным путём мной установлено, что слово "кот" даёт любопытные и часто неожиданные результаты в комбинации с чьим-либо (человеческим) портретом, а слова на космическую тему вроде "солнце", "галактика", "космос" - почти всегда красив

Продолжаю не торопясь разбираться в пользовательских настройках телеграм-бота "Кандинского".

На всякий случай напомню, что он предлагает четыре режима генерации изображений: по тексту, по картинке и тексту, смешивая две картинки и модифицируя одну картинку.

Первой я пользуюсь практически всегда - с ней всё понятно. Четвёртая разобрана по косточкам в одной из моих прошлых публикаций. Сегодня займусь второй: смешиванием картинки и текста.

Как несложно догадаться, вы загружаете изображение, а потом добавляете к нему текстовое уточнение. Разумно делать его таким, чтобы оно сочеталось с загруженной картинкой согласно какой-нибудь логике: или по форме, или по содержанию. В этом случае результат, скорее всего, будет выглядеть органично.

Перейдём сразу к практике. Опытным путём мной установлено, что слово "кот" даёт любопытные и часто неожиданные результаты в комбинации с чьим-либо (человеческим) портретом, а слова на космическую тему вроде "солнце", "галактика", "космос" - почти всегда красивые изображения в комбинации с чем угодно. С котами развлекайтесь осторожнее, можно залипнуть очень надолго: все ваши знакомые, вовремя не спрятавшие от вас свои фото, автоматически попадают в группу риска по окошачиванию.

Да чего далеко ходить: вот вам примеры. Правда, для них я использую стоковые фотографии случайных людей. Вам всё равно чьи, а мне с моими друзьями и знакомыми ещё жить.

А теперь листайте галереи.

Гибрид №1.

Результат смешивания фотопортрета и слова "кошка". Даже очень внимательный зритель не найдёт в кошаке "Кандинского" ничего общего с его человеческим прототипом.

Гибрид №2.

Результат смешивания портрета человека и слова cat. Здесь можно при большом желании даже усмотреть некоторое портретное сходство.

Гибрид №3.

Ну и, наконец, совершенно непонятно, кто у "Кандинского" на картинке, но это явно ни кошка, от которой остались только уши и хвост, ни девушка с оригинальной фотографии.

Как видите, итоговые ГМО по соотношению "кот/человек" могут варьировать в пределах от 95% кота на 5% человека до 5% кота на 95% человека, а сходство с оригиналом совсем не гарантировано. Предсказать результат невозможно, можно только пробовать загружать разные фотографии.

Интересно, что независимо от положения головы человека на исходном фото, котолюди "Кандинского" всегда смотрят ~~в светлое будущее~~ в сторону и немного вверх.

Теперь попробуем не-котов.

Для генераций буду использовать фотографии чего попало, снятые на камеру смартфона, что называется, на ходу. Они на последнем слайде каждой галереи. Описательную часть ограничу одним-двумя словами, чтобы основную информацию для генерации "Кандинский" брал не из текста, а из фотографии.

Фото скромного одуванчика + слово "солнце", "Кандинский" 2.1

Пион + слово "галактика", "Кандинский" 2.1

Галактический пион (но он об этом не знает).

Жилой дом + слово "замок". "Кандинский" правильно поставил ударение!

Оригинал намного скучнее. Провода ещё эти...

Пластиковый лев у крыльца + слово "саванна", "Кандинский" 2.1. Про городские джунгли вы наверняка слышали, теперь вот извольте наблюдать городскую саванну.

Тот же пластиковый лев, но с уточнением: "африканская саванна". Похоже на картинки-загадки для дошколят: "Художник рисовал африканских зверей и всё напутал! Каких животных перепутал художник?"

Угадайте-Что-На-Оригинальном-Фото + слово "витраж", "Кандинский" 2.1

А вот и оригинальное фото. Спорим, не угадали :D

Теперь попробую расширить текстовые описания.

Всё те же резиновые сапоги + текст "женские туфли на шпильке", "Кандинский" 2.1. Неплохие такие ботильоны получились.

И снова сапоги + текст "фрукты на прилавке, большой оживлённый рынок". Похоже, вторую часть описания "Кандинский" просто проигнорировал.

Фотография автобусного поручня (очень забавного) + текст "дружелюбный робот, стиль 3D-анимации", "Кандинский" 2.1

То же исходное фото + текст "почтовый курьер держит коробки перед собой на вытянутых руках".

Теперь вы понимаете, откуда такие описания? :D

И напоследок - опция "помощь друга". Я попрошу "Шедеврум" сгенерировать пару фотоизображений, а потом "Кандинский" их обработает. Пусть это будут... допустим, апельсин и гусеница (по отдельности).

Изображение апельсина от "Шедеврума" + текст "шар из лавы", "Кандинский" 2.1

Тот же апельсин + слово "солнце" (опять). Вышло даже убедительно.

Зелёная гусеница работы "Шедеврума" + слово "поезд", "Кандинский" 2.1.

Оригинал от "Шедеврума", не поместившийся в тесные рамки.

В общем, к этому моменту должно быть понятно, как работает режим генерации по картинке и тексту, какие сочетания лучше подбирать и каких результатов ожидать.

В телеграм-боте остался один последний неизученный мной режим - смешивание двух картинок. Чувствую, что к подбору исходного материала нужно будет подойти со всей тщательностью и ответственностью. Если мне когда-нибудь и было суждено разобрать старые забытые папки с фотографиями на жёстком диске, то этот момент настал.

Беру запас еды, воды и открываю диск С. Скоро не ждите.