Найти в Дзене

Пульт управления "Кандинским": работают ли модификаторы запросов?

В начале апреля "Сбер" представил восторженной публике обновлённую нейросеть для создания изображений Kandinsky версии 2.1. (я предпочитаю называть его "Кандинский", кириллицей).

Само собой, новостей об этом событии, обзоров, рецензий и прочего написано уже выше крыши, поэтому я не буду ничего добавлять к этой куче, да и вряд ли смогу. Я, простой технически неподкованный пользователь, хочу просто пользоваться и получать от этого удовольствие, а по возможности, ещё и пользу (вот так вот внезапно).

А пользоваться "Кандинским" можно разными способами: на сайтах fusionbrain.ai, rudalle.ru, при помощи сберовского Салюта или телеграм-бота. Вот последний метод я и предпочитаю - удобно, мобильно, компактно.

При создании запроса бот предлагает четыре способа его ввода - либо текстом, либо картинкой (одной или двумя), либо и тем, и другим. Если выбран ввод текстом, то на следующем этапе вы можете выбрать стиль, в котором будет выдержан результат: artstation, 4k, anime или оставить выбор стиля за нейросетью.

И вот эти-то модификаторы запросов я и собираюсь протестировать. Закину один и тот же запрос четыре раза, нажму четыре разные кнопочки и посмотрю, что выйдет.

Листайте галереи.

Запрос: леденец на палочке

Пока понятно, что ничего не понятно. Три из четырёх вариантов выглядят как братья-леденцы близнецы, и только artstation выдаёт что-то особенное. "4k" - термин для обозначения изображения с четырьмя тысячами пикселей по горизонтали, и в переводе на простой пользовательский вроде бы должно означать "высокое разрешение", но я его тут не вижу. Леденец в стиле аниме... серьёзно? Если уж на то пошло, то artstation-леденец больше подходит и под определение 4k, и под стандарты аниме - просто потому, что он явно рисованный.

Ладно, пробуем дальше.

Запрос: очередь в Мавзолей на Красной площади

Если внимательно всматриваться в эти картинки, можно заработать себе серию ночных кошмаров, поэтому предлагаю для целей текущего эксперимента абстрагироваться от содержания и оценивать только форму.

И снова я не вижу разницы между техникой исполнения первых трёх изображений: "Кандинский" просто сгенерировал псевдофото. Зато стиль "аниме" сработал на отлично, даже люди нарисованы без серьёзных ошибок в конструкции.

Запрос: портрет матроса в бескозырке

Имеем два портрета в духе цифровой иллюстрации XXI века и ещё два, принадлежащих как будто бы кисти неуловимо знакомых художников. Серьёзно, что-то вот такое много раз виденное, но на память никак не приходящее. В любом случае, это определённо не аниме.

Запрос: собака с игрушкой

Зоозащитникам и собаководам, опять же, лучше не вглядываться в детали. Оцениваем только стиль. Имеем две как-бы-фотографии, одну реалистичную картину и одного мультяшного персонажа с протезом задних лап (?). Сюрприз - мультяшный персонаж появился с модификатором artstation, а совсем не "аниме", как можно было бы подумать.

Запрос: женщина-кошка

Первые три картинки рисовала явно одна рука, а позировала одна модель. Сдаётся мне, это именно тот стиль, который по задумке должен соответствовать модификатору artstation - то есть цифровая графика без претензии на фотореализм. В этом случае "Кандинский" бросил кости, и artstation выпал три раза подряд. Зато на четвёртый раз стиль "аниме" неожиданно сработал.

Запрос: дирижабль в небе

И снова такая же история: три "артстэйшна" и аниме.

Похоже, что при нажатии кнопки "без стиля" пользователь просто даёт "Кандинскому" свободу выбора из трёх оставшихся, поэтому неудивительно, что первая картинка стилистически совпадает с какой-нибудь ещё. Но artstation и 4k, на мой взгляд, всё же должны чем-то различаться, а этого я пока не наблюдаю. Ни одного реалистичного дирижабля, к примеру, он здесь не выдал.

Запрос: рог изобилия

Первая картинка больше всего напоминает схему для вышивания крестиком. Либо это она и есть, либо я здесь впервые сталкиваюсь с недорендером у "Кандинского". Artstation выглядит чуть более фантазийно, чем 4k, но в целом обе картинки близки. "Аниме" снова сработал как надо.

Запрос: клубника на блюдце

Приходится постоянно напоминать себе не обращать внимания на конструктивные ошибки, потому что сегодняшний мой эксперимент не про это. И вообще, в экологически неблагополучных районах можно и не такое на рынке увидеть.

Интересно, что "Кандинский" наконец решил снова сгенерировать фотографическое изображение, причём с модификатором 4k он этот трюк не повторил. "Аниме" сработало, но меня начинает забавлять тенденция пририсовывать анимешных девочек к натюрмортам, где им вообще нечего делать. Это для убедительности жанра?

Подведём итог (малоутешительный). Кнопки-модификаторы в телеграм-боте "Кандинского" работают как попало: "аниме" срабатывает через два раза на третий; 4k, похоже, ничем не отличается от любого произвольного стиля.

Что же получается: я совсем не могу контролировать результат генерации? Совсем?

Попробую сделать ход конём. А что будет, если добавить слова "в стиле аниме" в текст запроса и выбрать генерацию без стиля?

За-ра-бо-та-ло! Восемь из восьми попаданий.

Теперь попробуем получить фотографические изображения. Запросы те же, просто добавлю к каждому слово "фото" и выберу режим генерации "без стиля".

Et voilà! Особенно порадовала женщина-кошка - реалистичнее не придумать.

Поздравляю, мы научились жать на кнопочки. Вернее, научились не жать, поскольку это малоэффективно. "Кандинский"-бот намного лучше понимает хотелки пользователя, если включать их в текст запроса. Скорее всего, это недоработка собственно телеграм-бота, не имеющая отношения к особенностям нейросети.

Пора возвращаться к нашей эпической битве искусственных интеллектов. Пока в ней, напомню, лидирует "Шедеврум" от Яндекса. Ну и раз уж речь зашла о художественных стилях и жанрах, их и буду сравнивать в следующем раунде.