20,3 тыс подписчиков

Новая модель ИИ от Nvidia создает музыку на основе текстов и аудиоподсказок

4 декабря 20244 дек 2024

2 мин

Nvidia Nvidia выпустила новую генеративную аудио модель ИИ, способную создавать множество звуков, музыки и даже голосов на основе простых текстовых и аудиоподсказок пользователя. Названная Fugatto (также известная как Foundational Generative Audio Transformer Opus 1), модель может, к примеру, создавать джинглы и фрагменты песен исключительно по текстовым подсказкам, добавлять или удалять инструменты и вокал из существующих композиций, изменять как акцент, так и эмоции голоса и «даже позволять людям производить звуки, которые никогда не были слышны раньше», согласно объявлению, сделанному в понедельник. «Мы хотели создать модель, которая понимает и генерирует звук так, как это делают люди», - сказал Рафаэль Валье, менеджер по прикладным исследованиям аудио в Nvidia. «Fugatto — это наш первый шаг к будущему, где неврачебное многозадачное обучение в аудиосинтезе и трансформации будет осуществляться на основе данных и масштабов модели.» Компания отмечает, что музыкальные продюсеры могут и

Nvidia

Nvidia выпустила новую генеративную аудио модель ИИ, способную создавать множество звуков, музыки и даже голосов на основе простых текстовых и аудиоподсказок пользователя.

Названная Fugatto (также известная как Foundational Generative Audio Transformer Opus 1), модель может, к примеру, создавать джинглы и фрагменты песен исключительно по текстовым подсказкам, добавлять или удалять инструменты и вокал из существующих композиций, изменять как акцент, так и эмоции голоса и «даже позволять людям производить звуки, которые никогда не были слышны раньше», согласно объявлению, сделанному в понедельник.

«Мы хотели создать модель, которая понимает и генерирует звук так, как это делают люди», - сказал Рафаэль Валье, менеджер по прикладным исследованиям аудио в Nvidia. «Fugatto — это наш первый шаг к будущему, где неврачебное многозадачное обучение в аудиосинтезе и трансформации будет осуществляться на основе данных и масштабов модели.»

Компания отмечает, что музыкальные продюсеры могут использовать эту модель ИИ для быстрого прототипирования и проверки идей песен в различных музыкальных стилях с разными аранжировками или добавления эффектов и дополнительных слоев к уже существующим трекам. Модель также может быть использована для адаптации и локализации музыки и озвучки существующей рекламной кампании или корректировки музыки видеоигры на лету, пока игрок проходит уровень.

Модель даже способна генерировать ранее неслышанные звуки, такие как лаящие трубы или мяукающие саксофоны. При этом она использует технику, называемую ComposableART, чтобы комбинировать инструкции, которые она изучила в процессе обучения.

«Я хотел позволить пользователям комбинировать атрибуты субъективно или художественно, выбирая, на какое из них делать больший акцент», - написал исследователь ИИ Nvidia Рохан Бадлани в объявлении. «В моих тестах результаты часто были удивительными и заставляли меня почувствовать себя немного художником, хотя на самом деле я компьютерный ученый.»

Модель Fugatto использует 2,5 миллиарда параметров и была обучена на 32 графических процессорах H100. Такие модели аудио ИИ становятся все более распространенными. Stability AI в апреле представила аналогичную систему, способную генерировать треки продолжительностью до трех минут, тогда как модель V2A от Google может генерировать «неограниченное количество саундтреков для любого видеовхода».

YouTube недавно выпустил музыкальный ремиксер ИИ, который создает 30-секундный образец на основе вводимой песни и текстовых подсказок пользователя. Даже OpenAI экспериментирует в этой области, выпустив в апреле инструмент ИИ, который требует всего 15 секунд образца аудио, чтобы полностью клонировать голос пользователя и его вокальные паттерны.

Вы также можете читать меня в:

Telegram: https://t.me/gergenshin
Яндекс Дзен: https://dzen.ru/gergen
Официальный сайт: https://www-genshin.ru