32,6 тыс подписчиков
Как менялся речевой синтез Яндекса
Яндекс выпустил подробный разбор истории голосовых технологий на примере речевого синтеза Алисы — с кучей деталей, схем и сэмплов.
Несколько инсайдов:
— «Разрешатор» омографов помогает Алисе правильно ставить ударения в парах «зАмок» и «замОк», «белкИ» и «бЕлки». Чтобы реализовать эту фичу, разработчики обратились к модели машинного перевода.
— Современная архитектура синтеза позволяет за одну секунду работы генерировать несколько сотен секунд звука.
— Стиль речи выбирали путём краудсорсинга. В результате Алиса по умолчанию стала говорить более мягким и дружелюбным голосом.
— Чтобы научить Алису понимать шёпот, нейросеть обучили различать спектры звука для обычного голоса и шёпота. Система смотрит на спектр звука и решает, когда говорят шёпотом, а когда — голосом.
Подробнее об этом: https://habr.com/ru/company/yandex/blog/593681/
Это #партнёрский пост
Около минуты
15 декабря 2021
1394 читали