131 подписчик

VALL-E от Microsoft и синтез речи

18 января 202318 янв 2023

~1 мин

Попала в руки демо работы VALL-E (valle-demo.github.io), который синтезирует голос на основании 3-секундного примера речи. Результат конечно не идеален — можно уловить “нотки роботизированности” в этой речи.

Но нельзя не отметить, что синтез делается уже крайне близко к человеческому. Даже вдохи в некоторых примерах были синтезированны. Раньше мне часто становилось понятно, что со мной говорит робот, из-за слишком ровной речи без вдохов и оговорок.

Майкрософт решили не выкладывать в открытый доступ и даже за деньги этот движок синтеза, потому что мошенники вида “мам срочно нужны деньги выручай” смогут с такими решениями выйти на новый уровень. Но это дело времени.