1711 подписчиков
Microsoft пока не планирует выпускать генератор речи VALL-E 2 из-за рисков злоупотребления
Недавно компания Microsoft анонсировала новый генератор речи под названием VALL-E 2, который способен воспроизводить голос человека на уровне "человеческого паритета". Это значит, что результат работы этой нейронной модели синтеза речи практически неотличим от настоящего человеческого голоса, особенно если модель имеет всего несколько секунд аудиозаписи для анализа.
Основой функционирования VALL-E 2 является огромная база данных, которая позволяет модели анализировать и воссоздавать не только произношение слов, но и интонацию, ритм и другие тонкости речи. Microsoft опубликовала несколько аудиопримеров, демонстрирующих возможности этой технологии, где VALL-E 2 превращает короткие аудиообразцы в реалистичную синтезированную речь.
Однако, несмотря на потенциал VALL-E 2, Microsoft пока не планирует выпускать его публично из-за возможных рисков злоупотребления технологией. Компания признает исследовательскую направленность проекта и выражает обеспокоенность возможным неправомерным использованием, таким как подделка голосовой идентификации или имитация голосов конкретных людей.
Около минуты
14 июля 2024