Разработчики Google представили Tacotron 2 — систему синтеза речи, основанную на работе рекуррентных нейросетей. Авторы работы утверждают, что новый алгоритм является самым совершенным на сегодняшний момент в сфере искусственного синтеза речи и может быть использован для улучшения работы голосовых помощников. Алгоритм, подробно описанный в препринте на arXiv.org, реконструирует на основе сгенерированных из текста спектрограмм речь, максимально приближенную к человеческой. Послушать примеры работы алгоритма можно здесь. Google занимается разработкой систем синтеза человеческой речи достаточно давно. Например, их система WaveNet, работающая на основе сверточных нейросетей, при производстве аудио учитывает не только звучание отдельных языковых токенов из обучающей выборки, но также и языковые параметры, например, просодию и длину слогов и слов. Для работы такого алгоритма, тем не менее, требуется сложный предварительный анализ текста и огромное количество данных в обучающей выборке. Друго
В Google создали новую систему синтеза речи. И она почти неотличима от человека
30 декабря 201730 дек 2017
47
2 мин