Найти в Дзене

Kandinsky 3.0: теперь и с видео!

2.2 vs. 3.0: "Кандинский" развивает воображение и учит ботанику
2.2 vs. 3.0: "Кандинский" развивает воображение и учит ботанику

В жизни нашего друга "Кандинского" произошёл очередной эволюционный скачок. Новая версия 3.0, по уверениям разработчиков, "ещё лучше понимает текстовые запросы" и может создавать реалистичные изображения "в том числе на тему культуры России". В этой связи "Кандинский" даже поменял аватарку в телеграм-боте на изображение Чебурашки как наиболее яркого представителя русской культуры.

Но Чебурашка — не главное. Главная новость заключается в том, что теперь создание видео в "Кандинском" стало доступным для всех. Добраться до этого инструмента по-прежнему можно через телеграм-бот, оставив предварительную заявку; ну а если вы не хотите ждать, то прямой открытый доступ к генерации видео появился на сайте FusionBrain.

Окно генерации видео моделью Kandinsky 3.0 на платформе FusionBrain
Окно генерации видео моделью Kandinsky 3.0 на платформе FusionBrain

Инструмент генерации видео всё ещё находится на стадии бета-версии, но заметные изменения уже есть. Например, на FusionBrain можно создавать ролик уже из четырёх отдельных сцен, а не только из трёх. Качество картинки тоже выросло, хотя ошибок построения до сих пор предостаточно.

Так или иначе, я надеюсь, что теперь вам окажутся полезными мои необязательные советы по созданию видео в "Кандинском", которые были опубликованы здесь чуть больше месяца назад. Если вы ещё не читали ту статью, не пожалейте пяти минут — пригодится.

Формат статьи в Дзене не позволяет встраивать в неё анимацию, поэтому проиллюстрировать свои слова прямо здесь я не могу. Это придётся сделать отдельным постом. А пока перейдём к другой, не менее интересной стороне модели: к генерации изображений.

Обычно я пользуюсь услугами "Кандинского" в телеграм-боте, поэтому первое, что бросилось мне в глаза при смене модели с 2.2 на 3.0 — упрощение работы с ботом. Когда я говорю "упрощение", я преуменьшаю масштаб изменений. Количество кнопок усохло с пяти до одной. Теперь всё, что вы можете сделать, — это ввести текст.

Баста, карапузики! Кончилися танцы.
Баста, карапузики! Кончилися танцы.

Возможно, это временно, и в ближайшем будущем пропавшие кнопки вернутся. Но если этого не произойдёт, и если вы категорически не согласны с тем, что у вас отобрали возможность генерации по картинке, переноса стиля или создания стикеров, зайдите в меню бота (голубая кнопка) и выберите пункт "Изменить версию модели", или просто отправьте боту команду /model, а затем вернитесь к модели 2.2 или 2.1.

Изменить модель можно и на сайте ruDALL-E в верхнем меню через пункт "Предыдущие модели".

Как изменилось качество генерации в версии Kandinsky 3.0

Во-первых, исчезли кислотные цвета. Посмотрите на несколько примеров, созданных по одинаковым запросам версиями 2.2 и 3.0.

Яркая экзотическая рыбка:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

Загадочное существо явно не из нашего мира:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

Мальчик, обнаруживший фантастический звёздный пейзаж за дверью в заброшенном доме:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

В плане цветовой палитры модель будто бы откатилась до версии 2.1.

Во-вторых, новая версия действительно стала лучше понимать запросы. Обновления "Кандинского" (который сначала, напомню, назывался не иначе как "Русский DALL-E", и так же до сих пор называется его официальный сайт) происходят какое-то время спустя после обновлений настоящей DALL-E с той же нумерацией версий. Хоть в Сбере и говорят про "наши разработки", "Кандинский" всё равно изначально основан на продукте OpenAI. Видимо, несмотря на недружественное отношение со стороны американских коллег, разработчики Сбера нашли-таки способ подключить к своей нейросети немножко американских мозгов.

Помните, как версия 2.1 создавала картинки, подозрительно похожие на картинки Leonardo AI? Теперь же изображения по содержанию больше напоминают те, которые по аналогичным запросам генерирует DALL-E.

Вот маленькая пухлая зелёная гусеница в шлеме на гироскутере:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

А вот забытая всеми картина на чердаке, опутанная паутиной и покрытая пылью:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

Та самая корзина лисичек под кустом малины:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

Ну и, конечно, маленький фантастический зверёк в кусте сирени:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

Хотя грибы по-прежнему не вполне лисички, а зверёк всё ещё немного котик, но прогресс в понимании запроса у модели 3.0 очень заметен. Паутина больше не достигает размеров футбольной сетки, сирень стала сиренью, гусеница стала гусеницей и надела шлем, и мы наконец вырастили куст малины. В целом "Кандинский" 3.0 где-то на полпути между предыдущей версией себя же и DALL-E 3.

Все эти хорошие новости, похоже, уравновешиваются одной не очень хорошей: заметно снизилось качество рендера (отрисовки) и степень реалистичности. Насчёт второго нужно уточнить, что реализм больше не используется по умолчанию в большинстве случаев, как было в версии 2.2. Само по себе это не хорошо и не плохо, а при необходимости реалистичные изображения можно сгенерировать, уточнив запрос. Однако картинкам всё равно немного не хватает детализации и резкости, вдобавок чуть понизился контраст. Снова похоже на откат к версии 2.1. Чтобы лучше увидеть эту разницу, откройте картинки в новом окне.

Фантастическое существо с чертами тигра и птицы:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

Пещера, полная драгоценных кристаллов:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

Девушка в синей меховой шапке со звериными ушами:

Kandinsky 2.2
Kandinsky 2.2
Kandinsky 3.0
Kandinsky 3.0

В общем, пока Сберу никак не удаётся постичь дзен найти баланс между естественной цветовой гаммой, хорошим качеством изображения и адекватностью этого изображения запросу. Вытащат нос — хвост увязнет, вытащат хвост — нос увязнет.

Но я всё равно буду продолжать за них болеть. Отдельное спасибо им за то, что оставляют возможность работать со всеми предшествующими моделями. С понятливостью и палитрой "Кандинского" 3.0 да рендером и возможностями "Кандинского" 2.2, в принципе, можно нагенерировать неплохие результаты.

Вот бы ещё можно было этих результатов добиваться сразу в одной модели...