Генеративный ИИ и deepfakes столкнулись в разработке инструментов для создания голоса ИИ. Идея проста: вы берете голос и манипулируете им, чтобы он говорил те слова, которые вы ему даете.
Лидером в этой области является инструмент ИИ от ElevenLabs, который может похвастаться бесплатным уровнем использования наряду с некоторыми впечатляющими платными опциями.
В этой статье:
Что такое ElevenLabs?
Компания ElevenLabs, основанная бывшим инженером по машинному обучению Google и бывшим стратегом по развертыванию компании Palintir, занимается исследованиями в области голосовых технологий. Речевое программное обеспечение является ключевым элементом ее стратегии, но конечной целью является создание инструмента, который «мгновенно преобразует разговорный звук между языками».
ElevenLabs Voice AI — это модель преобразования текста в речь, которая может создавать реалистично звучащий человеческий голос. На ее сайте говорится следующее: «Наша миссия — сделать многоязычную аудиоподдержку по требованию реальностью в образовании, потоковом вещании, аудиокнигах, играх, фильмах и даже в разговорах в реальном времени».
Google Translate и его альтернативы — это одно, но можете ли вы представить себе инструмент, который мгновенно переводит то, что вы слышите? Клонирование голоса говорящего, чтобы вы слышали речь в том виде, в каком она была бы произнесена, — важный шаг на пути к этому.
Что такое генерация голоса с помощью искусственного интеллекта?
Проще говоря, генерация голоса ИИ позволяет взять голос и заставить его говорить то, что вы хотите услышать. Просто выберите голос, задайте диалог, а инструмент сделает все остальное.
Вы можете подумать: «Ну, Microsoft Sam делал это еще в 1990-х годах», и будете совершенно правы. Но Microsoft Sam и подобные инструменты звучали как роботы. Инструмент ElevenLabs, между тем, звучит гораздо ближе к человеку.
ElevenLabs предлагает три варианта речевого ИИ: совершенно бесплатные «готовые» голоса, генератор голосов ИИ (позволяющий выбрать пол, возраст и акцент) и «клонированные» голоса, которые можно загрузить только по подписке.
Вот пример:
Генерация базового диалога ИИ
Самый простой способ начать — использовать бесплатный инструмент ИИ речи от ElevenLabs.
Для этого перейдите на сайт beta.elevenlabs.io и создайте аккаунт (вы можете использовать свою электронную почту, аккаунт Google или Facebook).
Далее:
Вы также можете скачать сгенерированный образец.
Как создать голос ИИ с помощью ElevenLabs
Если вы предпочитаете создать новый голос, вы можете воспользоваться кнопкой Add Voice, чтобы перейти на экран VoiceLab. Чтобы создать новый голос на основе предустановок ElevenLabs:
При тестировании я обнаружил, что и женский/молодой/австралийский, и мужской/старый/австралийский акценты были отчетливо «американскими». Возможно, эта проблема будет устранена по мере развития технологии.
Создание собственного голоса в искусственном интеллекте
Хотя готовые и настраиваемые варианты интересны, действительно захватывающим элементом технологии ElevenLabs является инструмент мгновенного клонирования голоса.
В отличие от других опций мгновенное клонирование голоса требует подписки. Доступно несколько вариантов, самый дешевый — 5 долларов в месяц. На момент написания статьи на первый месяц действует скидка 80 %, что составляет всего 1 доллар.
Другие варианты стоят $22, $99 и $330 в месяц, при этом можно генерировать до 40 часов аудио в месяц.
Чтобы воспользоваться инструментом клонирования голоса ElevenLabs, вам понадобится диалог и образец вашего голоса. Подойдет что угодно, лишь бы оно было четким и в формате MP3. Чем длиннее образец, тем лучше — до 5 минут.
С экрана VoiceLab:
Добавив голос, вы можете настроить его на экране «Синтез речи», как описано выше.
Что можно сделать с голосом ИИ?
Речь ИИ с готовыми и клонированными голосами имеет множество возможностей. Как уже отмечалось, конечной целью ElevenLabs является перевод в реальном времени, но они отметили и другие варианты использования.
Упоминаются аудиокниги (возможно, их будет читать давно умершая кинозвезда), а также видеоигры (использование речи ИИ позволит сэкономить на актерах озвучивания). Но у этой технологии есть и другие применения — от музыки до сатиры и самопомощи, и, вероятно, не только.
Вы даже можете создать подкаст с использованием речи ИИ, хотя результат может получиться плоским и скучным.
Вступление к одному из эпизодов нашего «Очень полезного подкаста» было создано с помощью ElevenLabs:
И хотя результат получился не совсем таким, как мы ожидали, он достаточно хорош для использования, а технология может стать только лучше.
Тем временем ElevenLabs планирует создать функцию «голосового разговора», которая будет представлена позднее.
Используйте свой голос по-новому с помощью речевого ИИ от ElevenLabs
За последние несколько лет искусственный интеллект подарил нам несколько новых удивительных инструментов. Chat-GPT можно использовать для создания текста, ответов на вопросы, конспектирования отчетов и многого другого. Midjourney — удивительный инструмент, создающий произведения искусства на основе подсказок.
Теперь инструмент речевого ИИ от ElevenLabs позволяет легко управлять голосом. Это похоже на пародию, но с клоном оригинального голоса.
Хотя существуют этические аргументы против использования голоса без согласия, это мощный инструмент с интересными возможностями. А главное, он удивительно прост в использовании и дает впечатляющие результаты.
По новым правилам Дзена свежие материалы показываются в первую очередь подписчикам, которые реагируют на публикации. Поэтому не забывайте подписаться, поставить лайк и оставить комментарий, так вы будете первым узнавать о всех новых статьях на нашем канале!