Найти тему
32,6 тыс подписчиков

Как менялся речевой синтез Яндекса


Яндекс выпустил подробный разбор истории голосовых технологий на примере речевого синтеза Алисы — с кучей деталей, схем и сэмплов.

Несколько инсайдов:

— «Разрешатор» омографов помогает Алисе правильно ставить ударения в парах «зАмок» и «замОк», «белкИ» и «бЕлки». Чтобы реализовать эту фичу, разработчики обратились к модели машинного перевода.

— Современная архитектура синтеза позволяет за одну секунду работы генерировать несколько сотен секунд звука.

— Стиль речи выбирали путём краудсорсинга. В результате Алиса по умолчанию стала говорить более мягким и дружелюбным голосом.

— Чтобы научить Алису понимать шёпот, нейросеть обучили различать спектры звука для обычного голоса и шёпота. Система смотрит на спектр звука и решает, когда говорят шёпотом, а когда — голосом.

Подробнее об этом: https://habr.com/ru/company/yandex/blog/593681/

Это #партнёрский пост
Около минуты
1394 читали