142,7 тыс подписчиков

Команда исследователей Google рассказала о новой нейросети VLOGGER

17 марта 202417 мар 2024

1 мин

Стартап под названием VLOGGER анонсировал разработку инновационного метода генерации текстового и аудио-видео контента на основе одного входного изображения человека. Этот метод основан на последних достижениях в области генеративного распространения и представляет собой совокупность стохастической модели диффузии движения человека в 3D и новой архитектуры, которая дополняет модели преобразования текста в изображение как временным, так и пространственным контролем.Основная цель проекта VLOGGER заключается в создании высококачественных видеороликов переменной длины, которыми легко управлять, с помощью высокоуровневого представления человеческих лиц и тел. Отличительной особенностью данного метода является то, что он не требует обучения каждого человека, не полагается на распознавание и обрезку лиц, а также способен генерировать полное изображение человека, а не только лицо или губы. Кроме того, VLOGGER учитывает широкий спектр сценариев, что имеет решающее значение для правильного синте

Кроме того, VLOGGER учитывает широкий спектр сценариев, что имеет решающее значение для правильного синтеза людей, которые общаются. Метод был оценен по трем различным критериям, демонстрируя превосходство по качеству изображения, сохранению идентичности и временной согласованности по сравнению с другими современными методами.Для обучения и тестирования использовался новый и разнообразный набор данных MENTOR, который на порядок превышает предыдущие, составляя 2200 часов и включающий 800 000 личностей, а также тестовый набор из 120 часов и 4000 личностей.Структура VLOGGER представляет собой двухэтапный конвейер, основанный на моделях стохастической диффузии для моделирования преобразования речи в видео. Этот подход позволяет генерировать фотореалистичное видео переменной длины, изображающее речь целевого человека, включая его голову и жесты.VLOGGER также предоставляет возможность редактирования существующих видео, изменяя выражение субъекта или адаптируя области губ и лица для соответствия новому аудио. Кроме того, метод применим и для видеотрансляции, где он может редактировать области губ и лица, чтобы они соответствовали новому аудио контенту.Эти инновационные методы генерации видео обещают привнести новые возможности в область создания контента и видеоредактирования, открывая широкие перспективы для применения в различных сферах деятельности.

Гаджеты и электроника

5,73 млн интересуются