В США нейросеть обучили подбирать звуки для беззвучного видео

Исходное видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами, после чего нейросеть CLIP классифицирует объекты в ней.Ferra
На последнем этапе алгоритм учитывает временные интервалы в видео, когда звук должен воспроизводиться, поскольку, как отметили в отчете ученые, объект может появляться и исчезать из кадра, удаляться и приближаться в видео.Moi-portal.ru
В качестве базы эффектов используется Epidemic Sound — библиотека с 90 тыс звуками.Ferra
В конечном итоге искусственный интеллект «оснащает» каждую сцену пятью самыми вероятными звуковыми эффектами для объектов и окружения.Ferra
Эта новость в СМИ