5175 подписчиков

Искусственный интеллект от Microsoft научился имитировать голос

11 января 202311 янв 2023

1 мин

Модель генератора речи может сохранять эмоциональный тон говорящего и акустическую среду. Для точного подражания оригиналу, необходим лишь тестовый семпл (голосовой образец ) длинною всего три секунды. В Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при трехсекундном звуковом образце. Как только VALL-E выучит конкретный голос, он может речь и эмоциональный тон говорящего. Его создатели предполагают, что ИИ можно использовать для высококачественных приложений преобразования текста в речь, для редактирования, озвучивания текстовых файлов, и для создания аудиоконтента. Разработчики называют VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta* объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, новая разработка анализирует, как звучит голос человека, делит эту информацию на отдельные компоненты

В Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при трехсекундном звуковом образце. Как только VALL-E выучит конкретный голос, он может речь и эмоциональный тон говорящего. Его создатели предполагают, что ИИ можно использовать для высококачественных приложений преобразования текста в речь, для редактирования, озвучивания текстовых файлов, и для создания аудиоконтента.

Разработчики называют VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta* объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, новая разработка анализирует, как звучит голос человека, делит эту информацию на отдельные компоненты (называемые «токенами»). Затем он использует данные из звукового семпла для «понимания» как должны звучать другие фразы.

Microsoft обучила возможности синтеза речи VALL-E на звуковой библиотеке LibriLight, собранной Meta*. Она содержит 60 000 часов англоязычной речи от более чем 7 000 носителей, в основном взятых из общедоступных аудиокниг.

«…Фальшивые фотографии, фальшивое видео, фальшивый текст и фальшивый голос... Я [живу] в золотую эру мошенничества и продажной пропаганды…»

Компания не предоставила исходный код синтезатора речи для экспериментов, возможно потому что исследователи осознают потенциальный вред, который может принести эта технология. Многие комментаторы поддерживают такую точку зрения.

* Признана экстремистской организацией и запрещена на территории РФ

Подписывайся на наш телеграмм-канал!

Гаджеты и электроника

5,73 млн интересуются