Добавить в корзинуПозвонить
Найти в Дзене
4pda.to

Сбер представил нейросети серии Kandinsky 5.0 для создания фото и видео

На конференции AI Journey Сбер представил новые модели для генерации изображений и видеороликов. По заявлению разработчиков, представители семейства Kandinsky 5.0 предоставляют широкие возможности для профессионального творчества и личного использования «креативных» нейросетей. Модель Kandinsky 5.0 Image Lite генерирует по текстовому описанию изображения в разрешении до 1280x768 пикселей и редактирует их с помощью инструмента Image Editing. В её основе лежит диффузионный трансформер Kandinsky-DiT Lite на 6 млрд, основанный на архитектуре Cross Attention DiT. Кроме того, ИИ умеет добавлять к изображению надписи в общей стилистике сцены. Разработчики отмечают, что при обучении нейросети сделали акцент на русском культурном коде. Модель Kandinsky 5.0 Video Pro генерирует видео продолжительностью до 10 секунд в разрешении до 1280x768 пикселей и с частотой кадров до 24 fps. Внутри — модели image-to-video и T2V Flash для «оживления» картинок. Компания утверждает, что фирменный ИИ обеспечивае
   Сбер представил нейросети серии Kandinsky 5.0 для создания фото и видео
Сбер представил нейросети серии Kandinsky 5.0 для создания фото и видео

На конференции AI Journey Сбер представил новые модели для генерации изображений и видеороликов. По заявлению разработчиков, представители семейства Kandinsky 5.0 предоставляют широкие возможности для профессионального творчества и личного использования «креативных» нейросетей.

   Источник: Сбер
Источник: Сбер

Модель Kandinsky 5.0 Image Lite генерирует по текстовому описанию изображения в разрешении до 1280x768 пикселей и редактирует их с помощью инструмента Image Editing. В её основе лежит диффузионный трансформер Kandinsky-DiT Lite на 6 млрд, основанный на архитектуре Cross Attention DiT.

   Источник: Сбер
Источник: Сбер

Кроме того, ИИ умеет добавлять к изображению надписи в общей стилистике сцены. Разработчики отмечают, что при обучении нейросети сделали акцент на русском культурном коде.

Модель Kandinsky 5.0 Video Pro генерирует видео продолжительностью до 10 секунд в разрешении до 1280x768 пикселей и с частотой кадров до 24 fps. Внутри — модели image-to-video и T2V Flash для «оживления» картинок. Компания утверждает, что фирменный ИИ обеспечивает отличную динамику и умеет управлять ракурсом камеры.

   Источник: Сбер
Источник: Сбер

При обучении нейросети также были учтены особенности русской культуры. Kandinsky 5.0 Video Pro основана на диффузионном трансформере Kandinsky-DiT Pro с 19 млрд параметров на базе архитектуры Cross Attention DiT.

Чтобы выдача была более качественной и художественной, обучающие датасеты на финальных стадиях разработки наполняли графикой с «безупречной композицией, стилем и визуальным качеством». В этом процессе участвовали дизайнеры, арт-директоры и художники.

Функции моделей Kandinsky 5.0 Image Lite и Video Pro уже доступны в мессенджерах Telegram и Max, онлайн на сайте giga.chat, а также в приложении GigaChat для платформы Android.