Найти в Дзене
IT MAXIMALIST

Реалистичная озвучка за 5 минут | SaluteSpeech от Сбера

В самый разгар бума нейросетей мы оказались отрезаны от мировых технологий. Часть "вражеских" сервисов просто блокирует Россиян за "неправильный" IP, а те что доступны невозможно оплатить. Конечно есть различные пути обхода и оплаты через посредников, но это все дополнительные затраты времени и что самое главное - денег. В общем приходится искать отечественные аналоги на замену топовым забугорным нейронкам и сегодня у нас на обзоре генератор речи от Сбера SaluteSpeech. С регистрацией проблем не будет, справится и ребенок. Присутствуют три варианта: с привязкой к почте, с привязкой к номеру телефона (Сбер ID), либо Сбербизнес ID. Если вы клиент сбера, то Сбер ID у вас уже есть, а если нет, то создается он в пару кликов и привязывается к номеру телефона. Регистрация по почте не требует телефонного номера и дает простор для злоупотреблений, что мы конечно же всячески осуждаем. Каждому аккаунту предоставляется определенный лимит бесплатных генераций, обновляющийся раз в месяц, но об этом
Оглавление

В самый разгар бума нейросетей мы оказались отрезаны от мировых технологий. Часть "вражеских" сервисов просто блокирует Россиян за "неправильный" IP, а те что доступны невозможно оплатить. Конечно есть различные пути обхода и оплаты через посредников, но это все дополнительные затраты времени и что самое главное - денег. В общем приходится искать отечественные аналоги на замену топовым забугорным нейронкам и сегодня у нас на обзоре генератор речи от Сбера SaluteSpeech.

Регистрация

С регистрацией проблем не будет, справится и ребенок. Присутствуют три варианта: с привязкой к почте, с привязкой к номеру телефона (Сбер ID), либо Сбербизнес ID. Если вы клиент сбера, то Сбер ID у вас уже есть, а если нет, то создается он в пару кликов и привязывается к номеру телефона.

Регистрация по почте не требует телефонного номера и дает простор для злоупотреблений, что мы конечно же всячески осуждаем. Каждому аккаунту предоставляется определенный лимит бесплатных генераций, обновляющийся раз в месяц, но об этом поговорим позднее.

Уже на этапе регистрации нас ждет просто невероятно раздражающее окошко поддержки, всплывающее при КАЖДОМ переходе на новую страницу, да еще и со звуком.

-2

Не знаю чем там думали маркетологи. Создать целую экосистему нейросетевых технологий и на ровном месте обделаться на такой мелочи. Это просто эпик фейл. Пришлось прописать пользовательский фильтр в правилах AdGuard чтобы это недоразумение не мешало. Звук все равно остался, но в таком режиме уже вполне можно работать.

-3

На главной странице сервиса представлены для тестирования только базовые варианты синтеза без возможности управления интонациями.

-4

Личный кабинет и приложение

После авторизации попадаем в личный кабинет, жмем создать проект, выбираем SaluteSpeech API и видим главную страницу сервиса, где сразу натыкаемся на две больших кнопки, получить ключ и скачать приложение.

-5

Как выяснилось, в самом кабинете возможности поюзать генерацию речи нет, поэтому смело качаем приложение под десктоп, устанавливаем, генерируем API ключ и вставляем его в настройках приложения.

-6

В приложении доступны 3 вкладки: распознавание, синтез и генерация текста сберовским гигачатом. Первая и последняя нас не интересуют поэтому жмем на среднюю.

-7

Доступно всего 5 голосов, что конечно маловато, а вот на сайте есть целый магазин готовых. По заявке можно купить один из них, либо заказать разработку собственного.

-8

Под текстом для синтеза голоса красуются волшебные кнопочки управления паузами, ударениями, акцентами, интонацией и дополнительными голосами.

-9

А вот что означают генерируемые этими кнопочками теги без поллитра не разобраться, поэтому идем курить документацию.

-10

На первый взгляд вроде несложно, четыре параметра, каждому из которых можно задать значение от 1 до 5. Справа внизу видим ограничение на один запрос в размере 4000 символов.

-11

Много это или мало зависит от того насколько хорошо генерируется речь и как часто нужно будет вносить правки для улучшения. В общем приступаем к делу.

Генерация голоса

Для примера возьму транскрибацию рандомного ролика и попробую озвучить текст.

-12

Вот что получается на полном автомате нажатием одной кнопки

До корректировки

В целом придраться особо не к чему, получается весьма реалистично. Но мне не нравится что в самом начале во фразе "дорогие подписчики" получается восходящая интонация и акцент на слове "подписчики". Попробую сделать так чтобы акцент был на слове "дорогие", а интонация на слове "подписчики" была нисходящей.

-13

Добавил тегов, поигрался со значениями и получился вот такой вот результат.

После корректировки

Если сильно запариться можно сделать речь неотличимую от реального человека, но надо признать что до интуитивно понятного интерфейса здесь еще далековато. Приходится делать довольно много генераций, а каждая генерация съедает наши заветные бесплатные символы.

Стоимость

На бесплатном тарифе раз в месяц дают для генерации 200к символов. Для "поиграться" этого более чем достаточно.

-14

Если не хватило можно докупить, цены не кусаются, за 1000р получаем миллион символов чего уже достаточно для озвучки нескольких часовых роликов.

-15

Итоги

Да нормальный сервис, честно говоря ожидал что результат будет хуже. А так вполне можно юзать как для озвучки контента так и для создания голосовых ассистентов. На полном автомате получается весьма приличный результат. А с учетом того что это отечественная разработка и никаких проблем с доступом и оплатой не предвидится это просто бомба.

Не забываем ставить лайк и подписываться на канал чтобы ничего не пропустить 👍