В начале апреля "Сбер" представил восторженной публике обновлённую нейросеть для создания изображений Kandinsky версии 2.1. (я предпочитаю называть его "Кандинский", кириллицей).
Само собой, новостей об этом событии, обзоров, рецензий и прочего написано уже выше крыши, поэтому я не буду ничего добавлять к этой куче, да и вряд ли смогу. Я, простой технически неподкованный пользователь, хочу просто пользоваться и получать от этого удовольствие, а по возможности, ещё и пользу (вот так вот внезапно).
А пользоваться "Кандинским" можно разными способами: на сайтах fusionbrain.ai, rudalle.ru, при помощи сберовского Салюта или телеграм-бота. Вот последний метод я и предпочитаю - удобно, мобильно, компактно.
При создании запроса бот предлагает четыре способа его ввода - либо текстом, либо картинкой (одной или двумя), либо и тем, и другим. Если выбран ввод текстом, то на следующем этапе вы можете выбрать стиль, в котором будет выдержан результат: artstation, 4k, anime или оставить выбор стиля за нейросетью.
И вот эти-то модификаторы запросов я и собираюсь протестировать. Закину один и тот же запрос четыре раза, нажму четыре разные кнопочки и посмотрю, что выйдет.
Листайте галереи.
Запрос: леденец на палочке
Пока понятно, что ничего не понятно. Три из четырёх вариантов выглядят как братья-леденцы близнецы, и только artstation выдаёт что-то особенное. "4k" - термин для обозначения изображения с четырьмя тысячами пикселей по горизонтали, и в переводе на простой пользовательский вроде бы должно означать "высокое разрешение", но я его тут не вижу. Леденец в стиле аниме... серьёзно? Если уж на то пошло, то artstation-леденец больше подходит и под определение 4k, и под стандарты аниме - просто потому, что он явно рисованный.
Ладно, пробуем дальше.
Запрос: очередь в Мавзолей на Красной площади
Если внимательно всматриваться в эти картинки, можно заработать себе серию ночных кошмаров, поэтому предлагаю для целей текущего эксперимента абстрагироваться от содержания и оценивать только форму.
И снова я не вижу разницы между техникой исполнения первых трёх изображений: "Кандинский" просто сгенерировал псевдофото. Зато стиль "аниме" сработал на отлично, даже люди нарисованы без серьёзных ошибок в конструкции.
Запрос: портрет матроса в бескозырке
Имеем два портрета в духе цифровой иллюстрации XXI века и ещё два, принадлежащих как будто бы кисти неуловимо знакомых художников. Серьёзно, что-то вот такое много раз виденное, но на память никак не приходящее. В любом случае, это определённо не аниме.
Запрос: собака с игрушкой
Зоозащитникам и собаководам, опять же, лучше не вглядываться в детали. Оцениваем только стиль. Имеем две как-бы-фотографии, одну реалистичную картину и одного мультяшного персонажа с протезом задних лап (?). Сюрприз - мультяшный персонаж появился с модификатором artstation, а совсем не "аниме", как можно было бы подумать.
Запрос: женщина-кошка
Первые три картинки рисовала явно одна рука, а позировала одна модель. Сдаётся мне, это именно тот стиль, который по задумке должен соответствовать модификатору artstation - то есть цифровая графика без претензии на фотореализм. В этом случае "Кандинский" бросил кости, и artstation выпал три раза подряд. Зато на четвёртый раз стиль "аниме" неожиданно сработал.
Запрос: дирижабль в небе
И снова такая же история: три "артстэйшна" и аниме.
Похоже, что при нажатии кнопки "без стиля" пользователь просто даёт "Кандинскому" свободу выбора из трёх оставшихся, поэтому неудивительно, что первая картинка стилистически совпадает с какой-нибудь ещё. Но artstation и 4k, на мой взгляд, всё же должны чем-то различаться, а этого я пока не наблюдаю. Ни одного реалистичного дирижабля, к примеру, он здесь не выдал.
Запрос: рог изобилия
Первая картинка больше всего напоминает схему для вышивания крестиком. Либо это она и есть, либо я здесь впервые сталкиваюсь с недорендером у "Кандинского". Artstation выглядит чуть более фантазийно, чем 4k, но в целом обе картинки близки. "Аниме" снова сработал как надо.
Запрос: клубника на блюдце
Приходится постоянно напоминать себе не обращать внимания на конструктивные ошибки, потому что сегодняшний мой эксперимент не про это. И вообще, в экологически неблагополучных районах можно и не такое на рынке увидеть.
Интересно, что "Кандинский" наконец решил снова сгенерировать фотографическое изображение, причём с модификатором 4k он этот трюк не повторил. "Аниме" сработало, но меня начинает забавлять тенденция пририсовывать анимешных девочек к натюрмортам, где им вообще нечего делать. Это для убедительности жанра?
Подведём итог (малоутешительный). Кнопки-модификаторы в телеграм-боте "Кандинского" работают как попало: "аниме" срабатывает через два раза на третий; 4k, похоже, ничем не отличается от любого произвольного стиля.
Что же получается: я совсем не могу контролировать результат генерации? Совсем?
Попробую сделать ход конём. А что будет, если добавить слова "в стиле аниме" в текст запроса и выбрать генерацию без стиля?
За-ра-бо-та-ло! Восемь из восьми попаданий.
Теперь попробуем получить фотографические изображения. Запросы те же, просто добавлю к каждому слово "фото" и выберу режим генерации "без стиля".
Et voilà! Особенно порадовала женщина-кошка - реалистичнее не придумать.
Поздравляю, мы научились жать на кнопочки. Вернее, научились не жать, поскольку это малоэффективно. "Кандинский"-бот намного лучше понимает хотелки пользователя, если включать их в текст запроса. Скорее всего, это недоработка собственно телеграм-бота, не имеющая отношения к особенностям нейросети.
Пора возвращаться к нашей эпической битве искусственных интеллектов. Пока в ней, напомню, лидирует "Шедеврум" от Яндекса. Ну и раз уж речь зашла о художественных стилях и жанрах, их и буду сравнивать в следующем раунде.