Исходное видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами, после чего нейросеть CLIP классифицирует объекты в ней.Ferra

На последнем этапе алгоритм учитывает временные интервалы в видео, когда звук должен воспроизводиться, поскольку, как отметили в отчете ученые, объект может появляться и исчезать из кадра, удаляться и приближаться в видео.Moi-portal.ru

В качестве базы эффектов используется Epidemic Sound — библиотека с 90 тыс звуками.Ferra

В конечном итоге искусственный интеллект «оснащает» каждую сцену пятью самыми вероятными звуковыми эффектами для объектов и окружения.Ferra

Эта новость в СМИ

Moi-portal.ru

12 декабря 2021 года

Нейросеть научилась подбирать звук для беззвучных видео

Planet Today

11 декабря 2021 года

Ученые обучили нейросеть подбирать звук для беззвучных видео

Ferra

11 декабря 2021 года

Искусственный интеллект научился угадывать звуки в беззвучных видео

В США нейросеть обучили подбирать звуки для беззвучного видео