Модель генератора речи может сохранять эмоциональный тон говорящего и акустическую среду. Для точного подражания оригиналу, необходим лишь тестовый семпл (голосовой образец ) длинною всего три секунды. В Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при трехсекундном звуковом образце. Как только VALL-E выучит конкретный голос, он может речь и эмоциональный тон говорящего. Его создатели предполагают, что ИИ можно использовать для высококачественных приложений преобразования текста в речь, для редактирования, озвучивания текстовых файлов, и для создания аудиоконтента. Разработчики называют VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta* объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, новая разработка анализирует, как звучит голос человека, делит эту информацию на отдельные компоненты
Искусственный интеллект от Microsoft научился имитировать голос
11 января 202311 янв 2023
16
1 мин