Практически все нейросети, которые находятся на слуху, работают с графикой и носят скорее развлекательный характер. Но в начале января компания Adobe представила сервис Adobe Podcast с несколькими профессиональными инструментами для создания подкастов. Среди них особое место занимает Enhance Speech — нейросеть, улучшающая звук микрофона. Давайте разберемся, как она работает, действительно ли делает запись более чистой, и кому может пригодиться такой инструмент.
Содержание
- Что такое Adobe Podcast
- Как работает нейросеть Enhance Speech
- Как улучшить звук через нейросеть Adobe
- Что еще умеют нейросети
Что такое Adobe Podcast
Сервис Adobe Podcast ориентирован на публику, которая занимается созданием подкастов. Его технологической основой является аудиоредактор Project Shasta, запущенный еще в конце 2021 года. На первых порах онлайн-сервис предлагал пользователям удаленно записывать подкасты, преобразовывать речь в текст, а также настраивать микрофон, но позже появилась та самая нейросеть.
Аналогичный набор функций сейчас доступен и в Adobe Podcast. По сути, это ребрендинг Project Shasta и направлен на более широкую аудиторию. Хотя для доступа ко всем возможностям необходимо подать заявку через форму на сайте, нейросеть Enhance Speech, которая является одним из инструментов онлайн-сервиса, доступна любому желающему совершенно бесплатно.
⚡ Подпишись на Appleinsider в Пульс Mail.ru, чтобы получать новости из мира Apple первым
Как работает нейросеть Enhance Speech
Главная задача Adobe Enhance Speech — сделать речь, записанную в не самых подходящих условиях и не на самое качественное оборудование, более выразительной и чистой. Почти во всех случаях нейросеть достигает заявленных целей, действительно отсекая внешние шумы и создавая впечатление, будто голос был записан в профессиональной студии подкастов.
Но Enhance Speech свойственны те же недостатки, что и нейросетям, улучшающим качество фото. Если при работе с графикой искусственный интеллект делает картинку нарочито мультяшной, пытаясь сгладить все недостатки изображения, то ИИ Adobe слишком агрессивно отсекает внешние шумы, делая звук плоским. Для подкастов — это то, что нужно. Но, если прогнать через нейросеть Adobe аудиодорожку какого-нибудь старого телевизионного репортажа, звук получится неестественно рафинированным. Складывается впечатление, что ролик в прямом смысле слова переозвучили.
❗ Поделись своим мнением или задай вопрос в нашем телеграм-чате
Поэтому в сценариях, выходящих за пределы создания подкастов, помимо Enhance Speech от Adobe нужно использовать дополнительные инструменты. Один из умельцев загрузил на YouTube сцену из фильма «Гражданин Кейн» (1941), которую не только прогнал через нейросеть Adobe, но и наложил на получившуюся аудиодорожку эффект реверберации. Звук стал менее плоским, но итоговый результат все равно заставляет рассматривать Enhance Speech исключительно как инструмент для работы с подкастами.
Кроме того, в своем нынешнем виде нейросеть для улучшения звука микрофона имеет несколько ограничений: поддерживаются только форматы WAV и MP3, продолжительность записи не должна превышать 1 час, а размер файла — 1 гигабайт.
🔥 Загляни в телеграм-канал Сундук Али-Бабы, где мы собрали лучшие товары с АлиЭкспресс
Как улучшить звук через нейросеть Adobe
Воспользоваться Enhance Speech можно на специальной странице сайта Adobe Podcast. Ее содержимое корректно отображается только в десктопной версии, поэтому при попытке прогнать звук через нейросеть со своего iPhone вы не увидите нужных кнопок для работы с нейросетью даже в режиме просмотра ПК-версии сайта.
При первом посещении необходимо создать учетную запись. Для этого нажмите кнопку «Sign Up». Чтобы войти, можно воспользоваться аккаунтом Google или Apple ID. После успешной авторизации на экране появится кнопка «Upload», нажав которую вы сможете загрузить аудиофайл для его дальнейшей обработки.
Нейросеть для улучшения звука не дает выставить никакие дополнительные параметры и сразу берется за дело. По окончании появляется возможность прослушать получившееся аудио, а также скачать его на свое устройство, нажав кнопку «Download».
В качестве эксперимента я загрузил 24-секундную аудиодорожку легендарного ролика «Пацаны ваще ребята». Чтобы ее обработать, Enhance Speech потребовалось около минуты, а итоговый размер файла увеличился с 0,2 Мб до 4,5 Мб. Но результат меня более чем устроил. Именно так звучало бы это видео, если бы его записью занималась бригада провинциального телеканала.
⚡ Подпишись на Appleinsider в Дзене, где мы публикуем эксклюзивные материалы
Что еще умеют нейросети
Enhance Speech — одна из множества нейросетей, за развитием которых пристально следят коллеги с Hi-News.ru. Наша редакция тоже неоднократно показывала, что нейросети позволяют:
Остается только догадываться, что еще в скором времени научатся делать нейросети и смогут ли они, наконец, заменить человеческий труд. А пока напишите в комментариях, чего вы ждете от искусственного интеллекта в 2023 году.
Как сделать звук студийного качества через нейросеть Enhance Speech от Adobe