Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит. Он совершенно не контролируется и не использует текст во время обучения. Алгоритм может соотносить объекты с видео со звуками, которые они издают. Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами. DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку. ▪Paper: https://arxiv.org/abs/2406.05629 ▪Website: https://mhamilton.net/denseav ▪Code: https://github.com/mhamilton723/DenseAV ▪Video: https://youtu.be/wrsxsKG-4eE @ai_machinelearning_big_data
DenseAV hеволюционный алгоритм, который предсказывает то, что он видит, исходя из того, что он слышит.
11 июня 202411 июн 2024
10
~1 мин