Найти в Дзене

Nvidia с искусственным интеллектом синтезирует звуки, которых никогда не существовало

Оглавление
Как звучит кричащий саксофон? У модели Fugatto есть ответ...
Как звучит кричащий саксофон? У модели Fugatto есть ответ...

Новая аудиомодель Nvidia с искусственным интеллектом может синтезировать звуки, которых никогда не существовало

Как звучит кричащий саксофон? У модели Fugatto есть ответ...

На данный момент все, кто следит за исследованиями в области ИИ, давно знакомы с генеративными моделями, которые могут синтезировать речь или мелодичную музыку на основе одних лишь текстовых подсказок. Недавно представленная Nvidia модель «Fugatto», похоже, идет на шаг дальше, используя новые методы синтетического обучения и комбинированные методы на уровне выводов для «преобразования любой смеси музыки, голосов и звуков», включая синтез звуков, которые никогда не существовали.

Хотя Fugatto еще не доступна для публичного тестирования, на сайте, заполненном образцами, показано, как с помощью Fugatto можно увеличить или уменьшить количество различных аудиохарактеристик и описаний, в результате чего можно получить все: от лая саксофонов до разговора людей под водой и пения сирен скорой помощи в виде своеобразного хора. Несмотря на то, что результаты могут быть не совсем удачными, широкий спектр возможностей, представленных здесь, подтверждает описание Fugatto компанией Nvidia как «швейцарского армейского ножа для звука».

ВЫ ХОРОШИ ЛИШЬ НАСТОЛЬКО, НАСКОЛЬКО ХОРОШИ ВАШИ ДАННЫЕ

В пояснительной записке более дюжины исследователей Nvidia объясняют, как сложно создать обучающий набор данных, способный «выявить значимые связи между звуком и языком». В то время как стандартные языковые модели часто могут сделать вывод о том, как обрабатывать различные инструкции, на основе текстовых данных, обобщить описания и характеристики аудио без более четких указаний может быть сложно.

Для этого исследователи начинают с использования LLM для создания сценария на Python, который может создавать большое количество шаблонных и свободных инструкций, описывающих различные аудио «персоны» (например, «стандарт, молодая толпа, тридцатилетние, профессионалы»). Затем они генерируют набор абсолютных (например, «синтезировать счастливый голос») и относительных (например, «увеличить счастье этого голоса») инструкций, которые могут быть применены к этим персонажам.

Широкий набор аудиоданных с открытым исходным кодом, использованный в качестве основы для Fugatto, как правило, не содержит подобных измерений признаков, встроенных в них по умолчанию. Но исследователи используют существующие модели понимания звука для создания «синтетических титров» к обучающим клипам на основе их подсказок, создавая описания на естественном языке, которые могут автоматически количественно оценивать такие характеристики, как пол, эмоции и качество речи. Инструменты обработки звука также используются для описания и количественной оценки учебных клипов на более акустическом уровне (например, «дисперсия основной частоты» или «реверберация»).

Для реляционных сравнений исследователи используют наборы данных, в которых один фактор остается неизменным, а другой меняется, например, разные эмоциональные прочтения одного и того же текста или разные инструменты, играющие одни и те же ноты. Сравнивая эти образцы в достаточно большом наборе данных, модель может начать изучать, какие аудиохарактеристики обычно появляются в «более счастливой» речи, например, или различать звучание саксофона и флейты.

Пропустив через этот процесс множество различных аудиоколлекций из открытых источников, исследователи в итоге получили сильно аннотированный набор данных из 20 миллионов отдельных образцов, представляющих не менее 50 000 часов аудио. На основе 32 тензорных ядер Nvidia была создана модель с 2,5 миллиардами параметров, которая стала показывать достоверные результаты в различных тестах качества звука.

ВСЕ ДЕЛО В МИКСЕ

Помимо обучения, Nvidia также рассказывает о системе «ComposableART» (от «Audio Representation Transformation») компании Fugatto. Получив подсказку в виде текста и/или аудио, эта система может использовать «условное руководство» для «независимого контроля и создания (невидимых) комбинаций инструкций и задач» и генерировать «очень настраиваемые аудиовыходы за пределами обучающего дистрибутива». Другими словами, он может комбинировать различные черты из своего обучающего набора для создания совершенно новых звуков, которые никогда не были слышны ранее.

Я не буду притворяться, что понимаю всю сложную математику, описанную в статье, которая включает в себя «взвешенную комбинацию векторных полей между инструкциями, индексами кадров и моделями». Но конечные результаты, показанные в примерах на веб-странице проекта и в трейлере Nvidia, демонстрируют, как с помощью ComposableART можно создать звук, скажем, скрипки, которая «звучит как смеющийся ребенок или банджо, играющее перед нежным дождем», или «заводского оборудования, кричащего в металлической агонии». Хотя некоторые из этих примеров более убедительны для наших ушей, чем другие, тот факт, что Fugatto вообще может достойно справиться с подобными комбинациями, свидетельствует о том, как модель характеризует и смешивает крайне разрозненные аудиоданные из множества различных наборов данных с открытым исходным кодом.

Возможно, наиболее интересной частью Fugatto является то, как она рассматривает каждую отдельную аудиохарактеристику как настраиваемый континуум, а не как бинарную величину. Например, в примере со звуком акустической гитары и бегущей воды результат будет совсем другим, если в интерполированном Fugatto миксе больше весит либо гитара, либо вода. Nvidia также упоминает примеры настройки французского акцента на более тяжелый или легкий, или изменение «степени печали», присущей разговорному клипу.

Помимо настройки и комбинирования различных звуковых характеристик, Fugattoтакже может выполнять задачи, которые мы уже видели в предыдущих моделях, например, изменять эмоции в фрагменте разговорного текста или выделять вокальную дорожку в музыкальном произведении. Fugatto также может определять отдельные ноты в MIDI-музыке и заменять их различными вокальными партиями или определять ритм музыкального произведения и добавлять эффекты, начиная от барабанов и заканчивая лаем собак и тиканьем часов, в соответствии с ритмом.

Хотя исследователи описывают Fugatto как первый шаг «к будущему, в котором многозадачное обучение без контроля возникает на основе данных и масштаба модели», Nvidia уже говорит о таких вариантах использования, как создание прототипов песен, динамическое изменение оценок видеоигр и международный таргетинг рекламы. Но Nvidia также поспешила подчеркнуть, что такие модели, как Fugatto, лучше всего рассматривать как новый инструмент для аудиохудожников, а не как замену их творческих талантов.

«История музыки - это также история технологий», - сказал участник программы Nvidia Inceptionи продюсер/песенник Идо Змишлани (Ido Zmishlany) в блоге Nvidia. «Электрогитара подарила миру рок-н-ролл. Когда появился сэмплер, родился хип-хоп. С помощью ИИ мы пишем следующую главу музыки. У нас появился новый инструмент, новый инструмент для создания музыки - и это очень здорово».

Читайте статью на сайте

Дорогой читатель, подписывайся на канал и жми на "колокольчик" чтобы не пропускать новые статьи!