Эта модель способна создавать аудио продолжительностью 12 секунд, исходя из текстового описания.
Eсть возможность предоставить аудио-референс, из которого будет извлекаться мелодия.
Демоверсия этой модели доступна для тестирования на платформе Hugging Face.
По мнению редактора TechCrunch, продукт Meta*, вероятно, даже превосходит нейронную сеть от Google.
*деятельность Meta (соцсети Facebook и Instagram) запрещена в России как экстремистская
Пример работы нейросети здесь: https://dzen.ru/video/watch/648980d7fd06f25efceb6480