Компания DeepMind которая входит в холдинг Google Alphabet что их новая технология генерации человеческой речи WaveNet была адаптирована для использования в разного рода продуктах Google. Например, Google Переводчик или Google Assistant. WaveNet была анонсирована еще в прошлом году и вывела синтез человеческой речи на новый уровень. Но для работы системы требовалась колоссальная мощность. Специалисты из DeepMind смогли снизить требования к вычитательной мощности серверов для генерации речи в 1000 раз.
Раньше технология TTS(Text to Speech) использовала для свой работы огромную базу данных высококачественной записи одного человека который наговаривал различные специально подготовленные предложения в студии звукозаписи. После чего эти записи разбивали на маленькие части, которые использовались алгоритмом для генерации речи. Но качество такой речи было не очень высоким, а сами слова звучали неестественно.
WaveNet построен на нейронной сети она по-прежнему используют большое количество предварительно записанных часов человеческой, но использует эти данные для обучения нейронной сети а не как раньше сразу для генерации человеческой речи. В итоге специалистом из DeepMind удалось добиться очень реалистичного звучания и даже звук от губ.
Так же данная технология позволяет добиться более лучших результатов за более короткое время. А так же система хорошо модернизируется так как она постоянно обучается. В добавок она позволяет генерировать новые голоса из старых что так же будет огромным плюсом.
Год назад система могла генерировать только 0.02 секунды человеческой речи за секунды что конечно же недостаточно для нормальной работы. Теперь система способна создавать 20 секунд речи всего за 1 секунду. Так же увеличилось и качество генерации теперь это 16-битовые аудиозаписи с частотой 24 кГц. Качество выдаваемой речи WaveNet ровно 4.35 у человеческой речи примерно 4.65