10,3 тыс подписчиков
🎧 Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model.
Многочисленные исследования в области генерации музыки продемонстрировали впечатляющую производительность, однако практически ни одна модель не способна напрямую генерировать музыку для сопровождения видео.
В данной работе представлен генеративный музыкальный ИИ-фреймворк Video2Music, который может генерировать музыку под предоставленное видео.
Сначала была собрана уникальная коллекцию музыкальных клипов. Затем проанализированы музыкальные видеоролики, чтобы получить семантические характеристики, характеристики смещения сцены, движения и эмоций.
Эти отличительные признаки используются в качестве исходных данных для модели генерации музыки.
Затем транскрибируются аудиофайлы в MIDI и аккорды, а также извлекаются такие характеристики, как плотность нот и громкость.
В результате был собран набор мультимодальных данных под названием MuVi-Sync, на котором обучена модель для генерации музыки на основе видео. Эта модель включает в себя новый механизм, обеспечивающий сходство между видео и музыкой. Наконец, выполняется постобработка на основе регрессионной модели на базе biGRU для оценки плотности и громкости нот на основе характеристик видео.
Это обеспечивает динамическую визуализацию генерируемых аккордов с изменяющимся ритмом и громкостью.
В ходе экспериментов показано, что фреймворк позволяет генерировать музыку, соответствующую видеоконтенту с точки зрения эмоций. Музыкальное качество, а также качество согласования музыки и видео подтверждается в ходе исследования.
Модель AMT, а также новый датасет MuVi-Sync представляют собой перспективный шаг для задачи генерации музыки для видео.
🖥 Github: https://github.com/amaai-lab/video2music
📕 Paper: https://arxiv.org/abs/2311.00968v1
⏩ Demo: https://llmrec.github.io/
🌐 Dataset: https://zenodo.org/records/10057093
1 минута
5 ноября 2023