Microsoft создали модель, которая имитирует голос человека на основе трёхсекундной записи. Больше никаких разговоров, ИИ сделает это за вас В Microsoft VALL-E описывается как "языковой моделью нейронного кодека". ИИ - это модель синтеза речи, способная генерировать речь. В этом нет ничего нового, но VALL-E выделяется своей скоростью обучения, всего за три секунды, и способностью воспроизводить эмоции говорящего человека. Еще одной отличительной особенностью искусственного интеллекта является то, что он создает запись слов и фраз, которые говорящий никогда не произносил. Для этого искусственный интеллект был обучен на более чем 60 000 часов английской речи, произнесенной более чем 7 000 дикторов, читающих бесплатные аудиокниги, находящиеся в открытом доступе на LibriVox.
3 года назад