Найти тему
“Gorilla Guerrilla”

Этот ИИ-инструмент клонирует ваш голос - ElevenLabs

Оглавление

Добро пожаловать в нашу рубрику «ИИ-инструмент недели», где мы представляем вам различные инструменты. Хотите генерировать реалистично звучащие голоса с помощью искусственного интеллекта на нескольких языках? Elevenlabs делает это возможным. В этой статье мы познакомим вас с лучшим на сегодняшний день ИИ для работы с голосом и покажем, на что он способен.

Помимо создания аудио из текста, ElevenLabs предлагает возможность дублирования видео. Это означает, что вы можете синхронизировать видео на другом языке, и, думаю, результаты здесь также впечатляют.

Как я могу это использовать и сколько это стоит?

Elevenlabs — это браузерное приложение. Это означает, что для использования функции генерации речи с помощью ИИ вам просто нужно зайти на сайт elevenlabs.io. Там есть поле ввода, и часто вы можете просто ввести туда текст, чтобы протестировать инструмент в режиме реального времени — без регистрации.

Но даже если сервис в данный момент перегружен и диалоговое окно на главной странице не работает, мы все равно можем начать работу бесплатно.

Для этого нам нужно создать бесплатную учетную запись, которую можно привязать к аккаунту Google или зарегистрировать с помощью адреса электронной почты. После создания учетной записи мы автоматически попадаем на тарифный план Forever Free от Elevenlabs и получаем 10 000 кредитов в месяц, которые мы можем тратить — это соответствует примерно 10 минутам сгенерированного аудио.

-2

На странице с ценами мы видим, что существует несколько градаций премиум-планов. Стоимость начинается от 5 долларов в месяц, что позволяет создавать до получаса аудио, а за 22 доллара — даже два часа.

Основные функции и возможности

Авторизовавшись в своей учетной записи, вы увидите, что на данный момент можно выбрать один из двух режимов: «Текст в речь» и «Речь в речь». Это всего лишь два разных способа загрузки контента в Elevenlabs: вы можете либо ввести желаемый текст, либо предоставить его в виде аудиофайла.

-3

Управление очень простое, и здесь не так много опций, как можно было бы ожидать. Во-первых, мы можем выбрать, какую модель мы хотим использовать для генерации. Здесь нет никакой разницы между обычными и премиум-аккаунтами, все модели доступны и без оплаты.

-4

Сама ElevenLabs рекомендует использовать более новые модели, которые можно узнать по названию V2, поскольку, по заявлению компании, они «лучше во всех отношениях».

Что касается стоимости: в бесплатном плане у нас есть 10 000 кредитов, а модели стоят одинаково «дорого». Один символ текста при генерации всегда стоит один кредит, независимо от того, используется ли модель V2 или V1.

-5

После выбора модели мы выбираем голос. Здесь у нас есть довольно большой список на выбор, и мы всегда можем прослушать краткий предварительный просмотр звучания каждого голоса. После того, как я выбрал голос, есть еще несколько настроек, которые не столько меняют звучание голоса, сколько манеру речи и последовательность.

-6

Затем нам фактически нужно только ввести текст или загрузить наше исходное аудио и нажать кнопку «Сгенерировать», и наш аудиофайл будет создан. Через некоторое время мы сможем прослушать файл и загрузить его прямо здесь, справа.

-7

Там же мы найдем историю всех наших сгенерированных файлов и сможем снова прослушать их, скачать и удалить.

-8

Помимо генерации, у нас есть еще несколько пунктов в левой боковой панели, и следующий — «Голоса». Там мы можем создавать собственные голоса.

В бесплатном плане есть только возможность настроить различные параметры, и на основе этих настроек для нас будет сгенерирован уникальный голос. Мы можем сохранить его, задать ему имя и затем использовать этот голос для новых аудиофайлов.

-9

Если у нас есть платная подписка, то мы также можем клонировать свой собственный голос, то есть загрузить аудиоматериал с нашим голосом и создать таким образом голосовой клон, которым мы сможем озвучивать все наши тексты.

При этом есть разница между мгновенным клонированием, для которого достаточно 1 минуты аудио, чтобы сразу получить клон, и возможностью профессионального клонирования голоса. Для этого нам нужен как минимум план Creator, и лучше всего загрузить несколько часов аудио. Затем модель обучается только на этих данных, что может занять несколько недель, но в итоге мы получаем клон, который звучит действительно неотличимо от нас.

-10

В разделе «Голоса» мы найдем так называемую «Библиотеку голосов» — огромную коллекцию различных голосов, в том числе и от других пользователей. Некоторые из них мы можем использовать даже с бесплатным планом, это видно сразу, если навести курсор мыши на кнопку «Добавить в голосовую лабораторию».

Следующий пункт на боковой панели — «Проекты», но для этого нам нужна платная подписка. С помощью проекта мы получаем просто больше возможностей управления, в том числе при работе с длинными текстами, состоящими из нескольких глав. Это пригодится, например, при озвучивании аудиокниг и т. п.

Далее у нас есть еще один интересный пункт «Дублирование», особенно для создателей контента. Здесь мы можем перевести существующее видео на другой язык, то есть дублировать его, и Elevenlabs постарается сохранить динамику и манеру речи оригинальной звуковой дорожки.

Последний пункт «Выплаты» интересен только в том случае, если мы создали профессиональный клон своего голоса. Ведь тогда мы сможем получать процент от прибыли, если наш голос будут использовать другие пользователи.

С недавних пор Elevenlabs предлагает также функцию генерации звуковых эффектов. На данный момент эта функция находится в стадии предварительного просмотра, но мы уже смогли ее протестировать, и результаты довольно хорошие.

-11

На этом мы фактически закончили с основными функциями, но я хотел бы также упомянуть документацию ElevenLabs, потому что там мы действительно найдем много полезной информации и советов.

Большая часть документации относится к API ElevenLabs, то есть к интерфейсу, с помощью которого я могу интегрировать эту технологию в свои собственные приложения и продукты, но у нас есть, как раз под пунктом «Синтез речи», много полезных руководств, например, по настройке голосов.

Лицензии и права

Важное замечание: по этому вопросу, конечно же, всегда стоит получать самую актуальную информацию непосредственно на сайте.

Наш загружаемый и генерируемый контент является нашей собственностью. ElevenLabs получает лицензию, которая, однако, по последним данным, ограничивается обеспечением функциональности, то есть хранением контента или предоставлением его нам для скачивания, а также для обучения и дальнейшего развития собственных технологий.

Однако для обучения есть также форма отказа, с помощью которой мы можем запретить такое использование.

Это текущее положение дел, которое может измениться, кроме того, я, разумеется, не юрист и не могу на 100% гарантировать, что эта интерпретация условий использования является абсолютно правильной.

Целевая аудитория

Как и у многих инструментов в области искусственного интеллекта, у Elevenlabs есть широкая целевая аудитория. В настоящее время генерация речи очень востребована среди людей, которые создают контент, например, для социальных сетей, поскольку создавать высококачественное аудио невероятно просто — причем сразу на нескольких языках.

Elevenlabs, конечно же, может озвучивать и целые книги в формате аудиокниг, существуют первые радиошоу, полностью состоящие из диалогов, сгенерированных ChatGPT и реализованных с помощью ElevenLabs.

Этот инструмент также оказывает огромную поддержку в области дублирования видео. Если вы, например, сняли видео на немецком языке, то теперь его легко перевести, например, на английский или испанский.

Преимущества и недостатки

Сильные стороны ElevenLabs

  • Невероятно реалистично звучащие голоса
  • Поддержка множества языков
  • Бесплатный план для ознакомления
  • Параметры для тонкой настройки голосов
  • Возможность клонирования собственного голоса

Слабые стороны ElevenLabs

  • Небольшие ошибки или неправильные ударения в неанглоязычных текстах
  • Полноценное использование возможно только с платной подпиской
  • Общая опасность мошенничества и дезинформации со стороны голосовых ИИ

Кто стоит за Elevenlabs?

Elevenlabs была основана в 2022 году бывшим сотрудником Google Machine Learning Петром Домбковским и бывшим сотрудником Palantir Матеушем Станишевским.

С тех пор компания привлекла значительное количество капитала от инвесторов в нескольких раундах финансирования, последний из которых составил 80 миллионов долларов США в январе 2024 года, что соответствует оценке компании более чем в миллиард долларов.

Вероятно, деньги у них так быстро не закончатся, и мы еще можем рассчитывать на дальнейшие инновации, например, в области приложений, о которых уже было объявлено.