Группа исследователей компании Microsoft разработала совершенно новую систему Vall-E, которая может качественно воспроизводить голос конкретного человека всего после нескольких секунд аудиотренировки.
Vall-E — не первый голосовой ИИ-инструмент, но он, как обещают исследователи, сможет превзойти их все по своим возможностям. В новой статье разработчики Vall-E утверждают, что большинство современных систем преобразования текста в речь ограничены их зависимостью от «высококачественных чистых данных» для точного синтеза высококачественной речи.
Во время создания модели использовалась технология EnCodec, которая обеспечивает эффективное сжатие аудиосигнала. В отличие от традиционных методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты («токены») и генерирует запись, моделируя голос так, как он бы мог звучать за пределами трехсекундного образца.
Поскольку VALL-E может синтезировать речь, сохраняя идентичность говорящего, Microsoft не стала публиковать код VALL-E, чтобы любители розыгрышей или мошенники не смогли использовать систему во вред, хотя само появление VALL-E уже вызывает опасение, а в Сети сразу вспомнили про знаменитый отрывок с имитацией голоса из фильма «Терминатор 2».