139,5 тыс подписчиков

Google запускает программу ИИ для создания видеороликов на основе текстовых и аудиоданных

29 декабря 202329 дек 2023

1 мин

Такие компании, как OpenAI, Microsoft и Adobe, запустили чат-ботов с искусственным интеллектом, которые работают на основе специальных типов больших языковых моделей (LLM), превращающих введенный текст в изображение. Компания Google также участвует в этой борьбе, и на декабрь 2023 года компания сделала шаг вперед, выпустив LLM под названием VideoPoet, которая может превращать текст в видео.

Для того чтобы продемонстрировать возможности VideoPoet, Google Research выпустила короткий фильм, состоящий из нескольких коротких роликов, сгенерированных этой моделью.

Например, разработчики объясняют, что для сценария она попросили чат-бот Bard написать серию подсказок, чтобы подробно описать короткую историю о путешествующем еноте. Затем VideoPoet сгенерировал видеоклипы для каждой подсказки, а когда модель сшила все получившиеся ролики, программа подготовила финальный ролик для YouTube.

Имеется предварительно обученный видео-токенизатор MAGVIT V2 и аудио-токенизатор SoundStream, которые преобразуют изображения, видео- и аудиоклипы различной длины в последовательность дискретных кодов в едином словаре. Эти коды совместимы с текстовыми языковыми моделями, что облегчает интеграцию с другими модальностями, такими как текст. На декабрь 2023 года в систему обучения VideoPoet внедрена смесь мультимодальных целей генеративного обучения, включая преобразование текста в видео, текста в изображение, изображения в видео, продолжение видеокадров, перекрашивание и перерисовывание видео, стилизацию видео и преобразование видео в аудио.