Найти тему
Машинное обучение

DenseAV hеволюционный алгоритм, который предсказывает то, что он видит, исходя из того, что он слышит.

Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит.

Он совершенно не контролируется и не использует текст во время обучения.

Алгоритм может соотносить объекты с видео со звуками, которые они издают.

Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами.

DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку.

Paper: https://arxiv.org/abs/2406.05629

Website: https://mhamilton.net/denseav

Code: https://github.com/mhamilton723/DenseAV

Video: https://youtu.be/wrsxsKG-4eE

@ai_machinelearning_big_data