Найти тему
Кошечка нейрошечка

Новая модель нейросети Kandinsky 3.0

На днях компания Сбер представила новую модель генерации изображений по тексту Kandinsky 3.0. В этой версии разработчики отошли от двухстадийного создания изображений, которое применялось в прошлых версиях. Теперь генерация картинок происзводится непосредственно из текстовых промптов.

Посмотрим, что умеет новая модель. Для начала несколько пейзажей. Листайте галерею.

Основное различие с моделью Kandinsky 2.2, которое сразу бросается в глаза: цветовая гамма модели 3.0 более умеренная, приглушенная. Больше не надо изощряться, чтобы нейросеть обошлась без кислотных цветов. Например, добавлять в запрос пасмурную погоду, чтобы освещение на картинке было тусклым. Ветви деревьев прорисованы четче.

Недостаток, который сразу бросается в глаза - отсутствие фокуса на некоторых пейзажах.

Изображение получилось нечетким. Запрос: болиголов, сныть, извилистая река, лето, лес, высокая трава у берега, 10 утра, вид на уровне воды, кучевые облака
Изображение получилось нечетким. Запрос: болиголов, сныть, извилистая река, лето, лес, высокая трава у берега, 10 утра, вид на уровне воды, кучевые облака

Как это исправить? Например, добавить какой-либо объект на передний план. Тогда Кандинский четко изобразит этот объект, и получится как бы объемная картинка.

Можно также попытаться сформулировать запрос по-другому, либо, если не выходит, перейти на модель Kandinsky 2.2, если сильно необходим именно такой пейзаж с лесом и рекой.

По сообщению разработчиков нейросети Kandinsky 3.0, новая модель понимает российский культурный код. Это значит, что нейронка умеет рисовать героев русских сказок, персонажей российских мультфильмов, имеет представление о русском искусстве. Проверю это. Листайте галерею.

Некоторые персонажи нарисованы кривовато, тем не менее, вполне узнаваемы. Проверим, насколько Кандинский в курсе русского искусства и стиля.

Шедеврум, очередь за тобой! Ты не все умеешь.

Вот лапти не получились. Кандинский все время вместо них рисует сандалии. С гармошкой накрутил, непонятно что, но хотя бы имеет представление, что это клавишно-пневматический музыкальный инструмент.

Теперь не помешает сравнить изображения, сгенерированные моделями 3.0 и 2.2. Для начала, марсианские пейзажи. Мне интересно, как в новой версии будет выглядеть Джон Адамс Кандинский 2.2 не отличается разнообразием, на один и тот же запрос «космонавт на Марсе, крупный план» он генерировал изображение человека в скафандре с одним и тем же лицом.

Ожидаемо, новая версия не станет повторять старую. Листайте галерею.

Еще сравню модели 3.0 и 2.2, повторив запрос слово в слово.

Грустная девочка 10 лет в плаще сидит на лавочке в парке, крупный план, начало осени, дождь, пасмурно, мокро
Грустная девочка 10 лет в плаще сидит на лавочке в парке, крупный план, начало осени, дождь, пасмурно, мокро
Художник пишет картину на природе, мольберт
Художник пишет картину на природе, мольберт

Руки пока что остаются проблемой нейросети Кандинский. Но если постараться, с n-ной попытки получится.

Взгляните и на другие арты с запросами. Листайте галерею.

Усложню задачу. Отправляю на генерацию изображение с динамикой движения.

Мальчик в ужасе удирает от огромного свирепого волка, мальчик бежит впереди, волк несется позади +связно, динамика движения, глубина резкости, вид издалека, dark animal
Мальчик в ужасе удирает от огромного свирепого волка, мальчик бежит впереди, волк несется позади +связно, динамика движения, глубина резкости, вид издалека, dark animal

Мальчик действительно убегает, а волк, похоже, не спешит. Ладно, зачтено. Теперь другая задача. Человека и животного вместе нейросеть умеет рисовать. Как насчет двух животных? Раньше Кандинский с этой задачей не справлялся.

Усложняю задачу. Котики и песики на картинках с птицами и рыбками. Здесь уже не обходится без казусов.

Еще усложняю задачу. Совмещаю на одном изображении диких животных.

И, наконец, самая сложная задача. Два вида животных с динамикой движения. Как в случае с мальчиком, только от волка будет убегать заяц.

Заяц удирает от огромного свирепого волка, заяц бежит впереди, волк несется позади +связно, динамика движения, глубина резкости, вид издалека, dark animal
Заяц удирает от огромного свирепого волка, заяц бежит впереди, волк несется позади +связно, динамика движения, глубина резкости, вид издалека, dark animal

Не спрашивайте, со скольких попыток получилась последняя картинка. Главное, что она получилась.