Найти тему
СУММА ТЕХНОЛОГИИ

Искусственный интеллект научился имитировать голос любого человека за 3 секунды

Оглавление

Разработанная учеными система VALL-E способна имитировать голос любого человека и делает это с невероятной точностью. Для того, чтобы начать воспроизводить вашу речь ИИ нужен образец голоса длиной всего в три секунды!

Исследователи из Корнельского университета разработали — по поручению Microsoft — модель искусственного интеллекта, способную почти идеально имитировать голос живого человека. Проект получил рабочее название ВАЛЛ-И и пока находится на стадии тестирования, но его возможности уже впечатляют.

Искусственный интеллект способен заговорить вашим голосом, ему нужно три секунды

Как можно прочитать в исследовании, ученым понадобилось 60 000 часов для обучения искусственного интеллекта. Это в сотни раз больше, чем используется в аналогичных проектах синтеза речи.

Таким образом, удалось создать модель, не только генерирующую человеческую речь, но и способную точно воспроизводить тембр чужого голоса и соответствующую интонацию речи, а также достаточно хорошо имитировать эмоции говорящего.

Ученые уверяют, что таким образом им удалось создать систему, генерирующую максимально естественную человеческую речь. Они добавляют, что для того, чтобы искусственный интеллект сгенерировал «фальшивое» высказывание, достаточно проанализировать образец голоса любого человека продолжительностью всего три секунды.

Примеры записей, которые были представлены на [GitHub], очень впечатляют. VALL-E не всегда работает идеально, но фактически имитирует несколько отобранных голосов за кадром естественным и довольно точным образом. Он одинаково хорошо имитирует мужскую и женскую речь, хотя некоторые его высказывания кажутся несколько «размытыми» от эмоций. Все-таки распознать, какой из голосов принадлежит живому лектору, не так-то просто.

Для чего можно использовать ВАЛЛ-И? Не только с положительной целью...

Нетрудно представить, что после доработки для ВАЛЛ-И найдется множество практических применений. Это может оказаться синтезатор речи, имитирующий голос людей, потерявших способность говорить, или притворяющийся настоящей озвучкой в фильмах или аудиокнигах.

Однако Microsoft не делает систему общедоступной, т.е. из-за риска несанкционированного использования. VALL-E может создать ложное заявление известного человека (например, политика) или притвориться голосом доверенного лица, чтобы обманом завладеть чужим имуществом.

  • Поставьте ПАЛЕЦ ВВЕРХ, если понравилась публикация и подписывайтесь на канал!