Компания Nvidia представила технологию, которая способна синтезировать реалистичную человеческую речь. Технология представлена на мероприятии Interspeech 2021.
Для реализации проекта разработчики создали несколько моделей преобразования напечатанного текста в речь. Такой подход позволяет получить голос, который практически невозможно отличить от настоящего. Обучение искусственного интелекта основано на собственном голосе пользователя. Так алгоритм получает необходимую информацию о тональности, тембре и прочих характеристиках, которые потом использует для создания компьютерного аналога голоса.
В компании заявили, что их разработка окажется полезной для людей с нарушениями речи и для имитации голосов знаменитостей. Проверить качество созданной в Nvidia технологии уже можно на некоторых готовых моделях. Подробную информацию о технологии можно узнать здесь.
Демонстрация работы: