3212 подписчиков

Исследователи научили нейросеть озвучивать видео без звука

5 января 20225 янв 2022

1 мин

Американские исследователи создали алгоритм Soundify, который помогает озвучивать видео без звука. Он будет полезен при работе с роликами, в которых изначально нет озвучки, например в съемках с дронов.

Над алгоритмом работала группа исследователей из Университета Карнеги-Меллон (штат Пенсильвания, США) и компании Runway. Они решили научить нейросеть самостоятельно подбирать звуки в зависимости от происходящего в кадре. Это не первая подобная попытка. Другая группа американских исследователей, из Массачусетского технологического института и Стэнфордской лаборатории, уже работала над этой задачей. Но число звуков, которые генерировала их нейросеть, было ограниченным. Кроме того, она «тормозила» с озвучкой быстро движущихся объектов.

Soundify в этом плане более совершенна. Ее работа делится на три стадии. Сначала алгоритм определяет возможные источники звука и их тип: конкретное место (дорога, кафе и т. д.), человек, другой объект. После этого Soundify обращается к базе данных Epidemic Sound, где подбирает подходящие звуки. Всего выбирается пять возможных эффектов, один из которых устанавливается по умолчанию. Остальные пользователь может добавлять или убирать сам.

Затем нейросеть устанавливает длительность звука в зависимости от того, как долго его источник находится в кадре. Наконец, на третьем этапе подбирается громкость. В результате получается реалистичная озвучка.

Алгоритм Soundify будет полезен тем, кто работает с «немыми» видео. Чаще всего такие получаются при съемках с дронов, не оснащенных микрофонами. Нейросеть возьмет на себя большую часть работы по подбору и монтажу звука.

О других попытках исследователей научить алгоритмы получать звук из ничего читайте: