Попала в руки демо работы VALL-E (valle-demo.github.io), который синтезирует голос на основании 3-секундного примера речи. Результат конечно не идеален — можно уловить “нотки роботизированности” в этой речи.
Но нельзя не отметить, что синтез делается уже крайне близко к человеческому. Даже вдохи в некоторых примерах были синтезированны. Раньше мне часто становилось понятно, что со мной говорит робот, из-за слишком ровной речи без вдохов и оговорок.
Майкрософт решили не выкладывать в открытый доступ и даже за деньги этот движок синтеза, потому что мошенники вида “мам срочно нужны деньги выручай” смогут с такими решениями выйти на новый уровень. Но это дело времени.