9 подписчиков

MVSEP - разделение вокальных и инструментальных партий в музыкальном произведении с использованием нейронных сетей

6 февраля 20256 фев 2025

174

3 мин

Этот веб-ресурс предлагает обширный набор уже обученных нейросетей, насчитывающий около пятидесяти моделей, для решения различных задач спектрального разделения. Бесплатная версия не требует регистрации, однако она имеет: ограничение на качество выводимых файлов (*.mp3) и продолжительное время обработки файлов в очереди. Регистрация на сайте позволяет выбрать дополнительное кодирование треков в форматах Lossless (*.FLAC и *.WAV) и устанавливает файлам, подлежащим обработке, средний приоритет в очереди файлов. Конечно, премиум-модели искусственного интеллекта доступны за дополнительную плату, но и бесплатные варианты полностью удовлетворяют все потребности пользователей. 1. Грузим музыкальный файл, выбираем модель Demucs4 HT и количество треков - 6-ть, после чего нажимаем разделить и ждем очереди. После разделения файлы, полученные вами, некоторое время будут доступны на сайте. Вы сможете прослушать и скачать их без каких-либо ограничений. Собрать всю песню легко получится в любо

1. Грузим музыкальный файл, выбираем модель Demucs4 HT и количество треков - 6-ть, после чего нажимаем разделить и ждем очереди.

После разделения файлы, полученные вами, некоторое время будут доступны на сайте. Вы сможете прослушать и скачать их без каких-либо ограничений.

Собрать всю песню легко получится в любой DAW, результирующая всех дорожек складывается практически без искажений, но спектральные наслоения будут малозначимы, особенно учитывая, что дорожки будут сводиться с нашими собственными партиями и все это вместе доводится на мастер шине. Также можно домешать немного неразделенную дорожку, это позволит склеить все без лишних хлопот, хоть и сделает звучание чуть грязнее.

Рекомендуется пользоваться бесплатным аудиоредактором Audacity.

Audacity - это программа для записи и редактирования звука. С ее помощью пользователи могут записывать аудио с микрофона или других источников, делать монтаж звукозаписей, добавлять эффекты и фильтры, а также экспортировать готовые проекты в различные аудиоформаты. Audacity позволяет работать с несколькими дорожками одновременно, что делает ее отличным инструментом для создания музыки, подкастов, аудиокниг и других аудиопроектов.

Для того чтобы воспользоваться аудиоредактором Audacity, перейдите по ссылке https://www.audacityteam.org/download

Таким способом можно отделить и собрать заново почти все составляющие трека, используя разделение на типы инструментов. К сожалению, разделить две гитары таким способом не получится, поскольку они воспринимаются как один инструмент.

Заслуживающие внимания модели:

Demucs4 HT (vocals, drums, bass, other)

Алгоритм Demucs4 HT. Лучший для разделения на bass/drums/other.
Он был представлен в 2022 году командой из Facebook research. У алгоритма три версии:

- htdemucs_ft - лучшее качество, но медленный (SDR Bass: 12.05, SDR Drums: 11.24, SDR Other: 5.74, SDR Vocals: 8.33, SDR Instrumental: 14.63);
- htdemucs - ниже качество, но быстрый;
- htdemucs_6s - имеет два дополнительных трека для разделения "piano" и "guitar", качество пока среднее (SDR Bass: 11.42, SDR Drums: 10.59, SDR Other: 2.63, SDR Vocals: 8.17, SDR Instrumental: 14.48).

BS Roformer (vocals, instrumental)

Модель BS Roformer. На данный момент модель даёт самое высокое качество разделения на вокальную и инструментальную дорожки (за исключением ансамблей). Метрики лучше чем у предыдущего лидера - MDX23C. Это модифицированная версия исходной модели BS Roformer. Модель версия 2024.08 (SDR Vocals: 11.31, SDR Instrumental: 17.62)..

BandIt Plus (speech, music, effects)

Модель BandIt Plus для разделения треков на голос, музыку и эффекты. Она может быть полезна для телевизионных или кинематографических роликов. Модель была натренирована на наборе данных Divide and Remaster (DnR). И на данный момент имеет лучшие метрики качества среди подобных моделей.

Medley Vox (Multi-singer separation)

Medley Vox - это датасет для тестирования алгоритмов разделения нескольких певцов в рамках одного музыкального трека.

MVSep Male/Female separation

Модель для разделения мужских и женских голосов в рамках одной вокальной дорожки. Дорожка должна содержать только голоса, без музыки. Если у вас есть лишние звуки, то используйте опцию "Extract vocals first with BS Roformer".
Лучший алгоритм MelRoformer (2025.01) (SDR Male: 13.39, SDR Female: 12.68)

Вы можете зайти на сайт MVSEP по ссылке https://mvsep.com/ru