Найти в Дзене
Telecom Daily

«Сбер» обновил «Кандинского»

«Сбер» усовершенствовал свою генеративную нейросеть, которая создаёт изображения по текстовому описанию на русском и английском языках. Обновлённая версия Kandinsky 3.1 дообучена на увеличенном датасете изображений, что позволило повысить качество генераций.

Что важно?

Во-первых, время одной генерации сократилось почти в 10 раз, а разрешение генераций можно повысить до 4K. Это большое достижение, поскольку диффузионные модели, к которым относится и «Кандинский», в принципе довольно медленные. Теперь же получилась не диффузионная модель, а де-факто генеративно-состязательная сеть, в которой один алгоритм генерирует картинки, а второй определяет, какие из них соответствуют запросу.

Во-вторых, появилась возможность улучшения текстового запроса с помощью языковой модели. Пользователям снова будут доступны функции создания различных вариаций изображений, смешивание картинок и текста, создание стикерпаков и возможность вносить локальные изменения на картинке, не меняя всей композиции сцены (ControlNet).

Также в ближайшее время появится новая модель Kandinsky Video 1.1 для генерации видео по текстовым описаниям.