Microsoft объявила о создании нового генератора речи VALL-E 2, который, по словам компании, настолько хорош, что его опасно выпускать в широкий доступ. Это заявление вызывает вопросы: отражает ли оно реальные опасения или является умелым маркетинговым ходом для привлечения внимания? Впрочем, учитывая то, что мы видели в ChatGPT уже поражает, так что результат Microsoft звучит правдоподобно. Согласно недавнему посту Microsoft, VALL-E 2 — это нейронная модель для синтеза речи, которая впервые достигла "человеческого паритета". Она способна генерировать точную, естественную речь, полностью имитирующую голос оригинального говорящего, сравнимую с человеческой речью. Уникальность VALL-E 2 заключается в том, что она может точно воспроизвести голос конкретного человека на основе образца длиной всего в несколько секунд. Модель использует обширную обучающую библиотеку, которая сопоставляет вариации произношения, интонации и ритма в модели с образцом и выдает убедительную синтезированную речь. Mi
Microsoft создала настолько крутой генератор речи, что боится выпускать его в свет
13 июля 202413 июл 2024
1 мин