25 подписчиков

Что такое Neural Text-to-Speech (TTS)?

Text-to-Speech (TTS), или синтез речи, — это технология, которая преобразует печатный текст в звучащую речь. Синтез речи применяется во многих сферах. С его помощью, например, разрабатывают голосовых ассистентов и системы навигации, создают электронные курсы, игры и многое другое. Различают два вида синтеза речи: стандартный TTS и Neural TTS. Стандартный TTS используют при невысоких требованиях к качеству голоса. В этом случае допускаются неверные ударения, неправильные интонации или полное их отсутствие, искусственность и «металлизированность» звучания.

Neural TTS — относительно новая технология, которая преобразует текст в речь с помощью нейросети. Это позволяет добиться более реалистичной имитации человеческого голоса: он звучит естественно, хорошо передает простые эмоции и не допускает ошибок в ударениях. Отличить голос, созданный Neural TTS, от записанного в студии может только профессионал. Подробности в нашем материале по ссылке.

Что такое Neural Text-to-Speech (TTS)? Text-to-Speech (TTS), или синтез речи, — это технология, которая преобразует печатный текст в звучащую речь. Синтез речи применяется во многих сферах.

Около минуты

20 апреля 2022