Lumiere – новая нейросеть от компании Google для создания коротких видеороликов. Основана на ИИ-модели пространственно-временной диффузии Space-Time-U-Net, STUNet.
Как работает нейросеть Lumiere
Отличие от других нейронных сетей – отказ от многоступенчатой генерации. Представленная ИИ-модель выполняет задачу в один этап. Нейросеть Lumiere использует пространственную и временную дискретизацию с понижением и повышением частоты кадров. В качестве основы видео применяется технология преобразования текста в изображение.
Искусственный интеллект обучен создавать полнокадровое ролики с низким разрешением путем обработки в нескольких пространственно-временных масштабах. По заявлению Google, новации в способе генерации устранили ошибки в кадрах видео и улучшили плавность анимации.
ИИ-модель обучена на базе из 30 миллионов роликов. Разработчики Google загрузили в нейросеть видео с детальным текстовым описанием. Датасет включает ролики в формате 128x128 pixels с частотой кадров 16 FPS. На основе загруженной базы данных искусственный интеллект генерирует уникальные видео продолжительностью 5 секунд в разрешении 1024×1024.
Примеры видео доступны на T4S.TECH
Функционал
Нейросеть Lumiere умеет:
- создавать видео на основе текстовых запросов;
- генерировать ролики по загруженной картинке;
- предоставлять результаты в едином стиле;
- анимировать часть изображения (воду в реке, облака в небе, огонь от костра);
- дорисовывать фрагменты (добавить шляпу, изменить цвет платья).
Созданный ролик доступен для повторной обработки, если пользователь захочет сменить стиль.
Примеры видео доступны на T4S.TECH
Нейросеть Lumiere – как начать работу
На момент написания обзора Lumiere недоступна для использования. Исходный код остается закрытым. Неизвестно, когда нейросеть появится в общем доступе.
Для тестирования ИИ-модели после релиза понадобится аккаунт Google. На официальным сайте доступны примеры работ с текстовыми запросами. Присутствует демонстрация технологии работы нейросети.
Особенности
- нейросеть для генерирования коротких роликов;
- модель ИИ понимает текстовые запросы;
- частично анимирует изображения;
- добавляет или устраняет детали;
- превращает картинки в видео;
- создает ролики с разрешением 1024×1024 пикселей.
Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.