11,4K подписчиков

Нейросеть научили генерировать звуки. По изображению или видеоролику

Канадские ученые из Университета Торонто представили нейросеть See-2-Sound для генерации звуков окружения по картинке или кадрам видеоролика

Разработанная исследователями модель машинного обучения не только создает подходящую дорожку, но и расставляет источники звука в пространстве для создания эффекта присутствия. See-2-Sound работает в несколько этапов. Сначала нейросеть получает изображение, анимацию или видеоролик, после чего анализирует источник.

Алгоритм пытается понять, какие объекты могут издавать такие звуки и на основе полученных данных генерирует саундтрек, причем для каждого источника создается собственная дорожка. Сгенерированные аудиодорожки расставляются в виртуальной комнате относительно пользователя, что создает объемное звучание и эффект присутствия в кадре.

На выходе у нейросети получается аудиофайл формата 5.1. Нейросеть можно установить по инструкции в репозитории или запустить в контейнере. Разработчики опубликовали текст работы и исходный код, а на сайте See-2-Sound доступны некоторые примеры. На платформе Hugging Face можно испытать работу нейросети на собственных входных данных.

Здесь мы рассказываем, что такое дипфейки и как они устроены:

Unsplash

Технологии

Больше по теме