23 подписчика

Сервисы для озвучки: Text to speech и llElevenLabs

21 августа 202421 авг 2024

4 мин

Оглавление

Text to speech
Пример изготовления озвучки
llElevenLabs

Вся эта шумиха вокруг нейросетей, озвучки с помощью так называемых «ИИ-инструментов» и забастовок актеров и сценаристов побудила меня к тому, что бы разобраться, в чем собственно дело. И так ли страшен черт, как его малюют. И я решил на основе двух сервисов озвучки проверить насколько хорошо роботы заменяют людей.

Text to speech

Инструмент от российских разработчиков. Много голосов, есть настройка этих голосов. Сайт нейросети texttospeech.ru содержит инструкции по правильному заполнению текста и установке ударений. Надо отдать должное, что весьма понятные и доступные простым смертным.

Результат работы сервиса меня не шибко впечатлил. Особенно если учесть, что для получения результата пришлось заплатить денег из собственного кармана. Ибо все сервисы по озвучке, которые попадались мне в сети, имеют жесткие ограничения для бесплатного использования.

Пример изготовления озвучки

В бесплатном варианте доступно около 17 голосов: женских и мужских. «~~Небинарных~~» голосов нет, так что озвучить «~~небинарную~~» персону не получится. На первых порах доступно для озвучки и скачивания около 2500 символов, включая пробелы и спец символы. Этого крайне мало, но если раскошелиться на 300 рублей, то можно свободно использовать голоса с пометкой «free» каких-либо ограничений (вот тебе и free). Так же станет доступна озвучка текстом всех остальных голосов, согласно указанному тарифу. Хотя, скажу честно, качество премиум голосов такое себе.

Стоит отметить, что изменения параметров голоса (скорость, высота и т. п.) не влияют на стоимость. Вы оплачиваете только символы.

Выбор голосов большой, но все звучат одинаково безэмоционально.

Зато внесли возможность менять цвет интерфейса.

Настройки голоса не требуют отдельной оплаты.

У каждого голоса можно менять такие параметры, как: высота, скорость, громкость, частота, сдвиг и эхо. Так же можно выбрать формат, в котором можно будет загрузить полученный результат: mp3 или чистый wav. Последний лучше по качеству. Правда качество результата оставляет желать лучшего.

Хотя иногда результат получается весьма прикольный. Я рекомендую использовать голос "Смоки" при разных настройках можно получить довольно интересную озвучку простых фраз.

Хотя все зависит от задачи. Например, я решил попробовать «переозвучить» один из демонстрационных видеороликов отличной модификации для Deus Ex — 2027. Которая была выпущена одновременно с официальной Deus Ex Human Revolution и показывала альтернативный взгляд на середину 20-х годов XXI века. Да-да, мы уже живем в киберпанке.

Вот только у разработчиков не хватило средств и возможностей для создания пусть даже любительской озвучки для своего произведения и все диалоги приходится читать, как в какой-нибудь интерактивной книге. Это не плохо, но — «несовременно».

llElevenLabs

Зарубежный сервис-нейросеть, который позволяет использовать ранее записанный голос или генерировать различные голоса, а не просто использовать заранее записанный. Поддерживает множество голосов.

При этом озвучка на русском так же возможна. Но есть несколько условий. Например, новый создаваемый голос использует один из пяти английских акцентов. С его помощью можно озвучивать текст на английском языке вполне сносно. Но текст, например на русском, озвучивается с карикатурным акцентом, как в дешевом российском кино.

Создание нового языка на основе одного из английских акцентов.

Функционал для записи и обработки голоса.

Что с помощью нейросети можно озвучить

Готовые голоса озвучивают текст на русском языке куда как лучше. Но эмоциональность остается на уровне плинтуса. Может быть какую-нибудь аудио книгу озвучить этот сервис и поможет, но для озвучки персонажей в качественных проектах он не подходит.

Хотя это не помешало использовать llElevenLabs для озвучки все той же модификации 2027. И результат получился весьма неплохим, для любительского проекта. Скачать файлы озвучки можно из этой темы форума planetdeusex.ru. Русский язык местами звучи неестественно, но лишь местами. А вот английская озвучка получилась не хуже, чем студийная.

Конечно, ограничения сервиса на 10 000 символов на озвучку — это ни о чем. И для озвучки пришлось разработчице раскошелиться. Ведь даже тестовые попытки выбрать подходящие настройки текста так же включаются в эти 10 000 символов. И пробелы тоже.

Однако, пока машины не могут заменить людей в озвучке. Как минимум в нормальной озвучке. Когда-нибудь это измениться, но это будет не сегодня. Но возможно весьма скоро.

Печальные выводы

В принципе для озвучки каких-нибудь ИИ, роботов, безэмоциональных живых или не живых существ такого рода сервисы подходят идеально. Однако считаю, что беспокоиться и устраивать неолуддитские протестные акции по поводу «Нас всех заменять машинами!» не стоит.

Да, машина может нарисовать картинку. Да, машина может сочинить симфонию. Да, машина может наделить голосом персонажа. Но все это она делает весьма посредственно. Хотя качество современной медиа продукции тоже посредственное...

Так что если Вы — посредственный "специалист", то я Вам сочувствую. Но если вы — профессионал, то беспокоиться о своем благополучии не имеет никакого смысла. Пока что. Вряд ли нейросети, даже самые продвинутые, смогут заменить творческие профессии. Какими бы продвинутыми алгоритмами они не обладали. Хотя...

Другой вопрос, что большинству людей результат особо и не интересен. Главное, что бы было, а как оно сделано — не особо и важно. Но это не вина нейросетей. Если вас устраивает озвучка в стиле «я — робот», то это не вина актеров.