Найти тему
Герман Геншин

Как создать голос ИИ, который будет звучать как вы, с помощью ElevenLabs

Оглавление

Генеративный ИИ и deepfakes столкнулись в разработке инструментов для создания голоса ИИ. Идея проста: вы берете голос и манипулируете им, чтобы он говорил те слова, которые вы ему даете.

Лидером в этой области является инструмент ИИ от ElevenLabs, который может похвастаться бесплатным уровнем использования наряду с некоторыми впечатляющими платными опциями.

В этой статье:

Что такое ElevenLabs?

Компания ElevenLabs, основанная бывшим инженером по машинному обучению Google и бывшим стратегом по развертыванию компании Palintir, занимается исследованиями в области голосовых технологий. Речевое программное обеспечение является ключевым элементом ее стратегии, но конечной целью является создание инструмента, который «мгновенно преобразует разговорный звук между языками».

ElevenLabs Voice AI — это модель преобразования текста в речь, которая может создавать реалистично звучащий человеческий голос. На ее сайте говорится следующее: «Наша миссия — сделать многоязычную аудиоподдержку по требованию реальностью в образовании, потоковом вещании, аудиокнигах, играх, фильмах и даже в разговорах в реальном времени».

Google Translate и его альтернативы — это одно, но можете ли вы представить себе инструмент, который мгновенно переводит то, что вы слышите? Клонирование голоса говорящего, чтобы вы слышали речь в том виде, в каком она была бы произнесена, — важный шаг на пути к этому.

Что такое генерация голоса с помощью искусственного интеллекта?

Проще говоря, генерация голоса ИИ позволяет взять голос и заставить его говорить то, что вы хотите услышать. Просто выберите голос, задайте диалог, а инструмент сделает все остальное.

Вы можете подумать: «Ну, Microsoft Sam делал это еще в 1990-х годах», и будете совершенно правы. Но Microsoft Sam и подобные инструменты звучали как роботы. Инструмент ElevenLabs, между тем, звучит гораздо ближе к человеку.

ElevenLabs предлагает три варианта речевого ИИ: совершенно бесплатные «готовые» голоса, генератор голосов ИИ (позволяющий выбрать пол, возраст и акцент) и «клонированные» голоса, которые можно загрузить только по подписке.

Вот пример:

Генерация базового диалога ИИ

Самый простой способ начать — использовать бесплатный инструмент ИИ речи от ElevenLabs.

Для этого перейдите на сайт beta.elevenlabs.io и создайте аккаунт (вы можете использовать свою электронную почту, аккаунт Google или Facebook).

Далее:

Вы также можете скачать сгенерированный образец.

Как создать голос ИИ с помощью ElevenLabs

Если вы предпочитаете создать новый голос, вы можете воспользоваться кнопкой Add Voice, чтобы перейти на экран VoiceLab. Чтобы создать новый голос на основе предустановок ElevenLabs:

При тестировании я обнаружил, что и женский/молодой/австралийский, и мужской/старый/австралийский акценты были отчетливо «американскими». Возможно, эта проблема будет устранена по мере развития технологии.

Создание собственного голоса в искусственном интеллекте

Хотя готовые и настраиваемые варианты интересны, действительно захватывающим элементом технологии ElevenLabs является инструмент мгновенного клонирования голоса.

В отличие от других опций мгновенное клонирование голоса требует подписки. Доступно несколько вариантов, самый дешевый — 5 долларов в месяц. На момент написания статьи на первый месяц действует скидка 80 %, что составляет всего 1 доллар.

Другие варианты стоят $22, $99 и $330 в месяц, при этом можно генерировать до 40 часов аудио в месяц.

Чтобы воспользоваться инструментом клонирования голоса ElevenLabs, вам понадобится диалог и образец вашего голоса. Подойдет что угодно, лишь бы оно было четким и в формате MP3. Чем длиннее образец, тем лучше — до 5 минут.

С экрана VoiceLab:

Добавив голос, вы можете настроить его на экране «Синтез речи», как описано выше.

Что можно сделать с голосом ИИ?

Речь ИИ с готовыми и клонированными голосами имеет множество возможностей. Как уже отмечалось, конечной целью ElevenLabs является перевод в реальном времени, но они отметили и другие варианты использования.

Упоминаются аудиокниги (возможно, их будет читать давно умершая кинозвезда), а также видеоигры (использование речи ИИ позволит сэкономить на актерах озвучивания). Но у этой технологии есть и другие применения — от музыки до сатиры и самопомощи, и, вероятно, не только.

Вы даже можете создать подкаст с использованием речи ИИ, хотя результат может получиться плоским и скучным.

Вступление к одному из эпизодов нашего «Очень полезного подкаста» было создано с помощью ElevenLabs:

И хотя результат получился не совсем таким, как мы ожидали, он достаточно хорош для использования, а технология может стать только лучше.

Тем временем ElevenLabs планирует создать функцию «голосового разговора», которая будет представлена позднее.

Используйте свой голос по-новому с помощью речевого ИИ от ElevenLabs

За последние несколько лет искусственный интеллект подарил нам несколько новых удивительных инструментов. Chat-GPT можно использовать для создания текста, ответов на вопросы, конспектирования отчетов и многого другого. Midjourney — удивительный инструмент, создающий произведения искусства на основе подсказок.

Теперь инструмент речевого ИИ от ElevenLabs позволяет легко управлять голосом. Это похоже на пародию, но с клоном оригинального голоса.

Хотя существуют этические аргументы против использования голоса без согласия, это мощный инструмент с интересными возможностями. А главное, он удивительно прост в использовании и дает впечатляющие результаты.

По новым правилам Дзена свежие материалы показываются в первую очередь подписчикам, которые реагируют на публикации. Поэтому не забывайте подписаться, поставить лайк и оставить комментарий, так вы будете первым узнавать о всех новых статьях на нашем канале!