Найти тему
Цифровой Океан

«Сбер» выпустил Kandinsky версии 3.0. Теперь модель лучше понимает текстовые запросы

«Сбер» разработал новую версию генеративной модели Kandinsky 3.0, которая умеет создавать еще более фотореалистичные изображения и генерировать художественные картины

Как сообщает пресс-служба «Сбера», модель работает с запросами из широкого списка тем и лучше предыдущих версий знает элементы отечественного культурного кода. Например, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России.

Кроме того, у Kandinsky 3.0 усовершенствована функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна — inpainting и outpainting. Нейросеть создает изображения с разрешением 1024х1024 пикселей, но может синтезировать картинки с выбранным соотношением сторон. Для обучения использован обновленный датасет из 1,5 миллиардов пар «текст-изображение», содержащий данные после многоэтапных процедур фильтрации.

-2

Kandinsky 3.0 также умеет создавать видеоролики по текстовому описанию в режиме анимации — по запросу генерируется видео длиной четыре секунды c выбранным эффектом анимации, частотой 24 кадра в секунду и разрешением 640х640 пикселей. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию — image2image. Модель понимает запросы более чем на 100 языках, а пользователи могут создавать изображения в неограниченном количестве стилей.

Здесь мы тестируем нейросети для создания изображений:

«Сбер»