Найти в Дзене

Microsoft создали модель, которая имитирует голос человека на основе трёхсекундной записи.


Больше никаких разговоров, ИИ сделает это за вас В Microsoft VALL-E описывается как "языковой моделью нейронного кодека". ИИ - это модель синтеза речи, способная генерировать речь.
В этом нет ничего нового, но VALL-E выделяется своей скоростью обучения, всего за три секунды, и способностью воспроизводить эмоции говорящего человека. Еще одной отличительной особенностью искусственного интеллекта является то, что он создает запись слов и фраз, которые говорящий никогда не произносил.

Для этого искусственный интеллект был обучен на более чем 60 000 часов английской речи, произнесенной более чем 7 000 дикторов, читающих бесплатные аудиокниги, находящиеся в открытом доступе на LibriVox.
Microsoft создали модель, которая имитирует голос человека на основе трёхсекундной записи.
Около минуты