Даже у каждого из внешне похожих друг на друга как две капли воды близнецов есть множество отличий. К примеру - голос.
Новинки в области использования ресурсов искусственного интеллекта говорят об обратном.
Так, новая нейросеть VALL-E от корпорации Microsoft может уверенно подделать голос конкретного человека! Полностью. Даже интонацию изображаемого спикера! "Валли" разбивает на мельчайшие фрагменты услышанное и сравнивает с уже освоенной им базой данных. Обладая информацией о том, как в разных ситуациях звучат голоса других людей, нейросеть «предполагает», как в тех же ситуациях будет звучать голос «донора». К счастью следует отметить, что обучался этот малыш на библиотеке, содержащей всего лишь 60 тысяч часов англоязычной речи более чем от 7 тысяч человек.
Интересно, настолько ли он будет хорош в клонировании голосов людей, разговаривающих на других языках? Самыми исторически "защищенными" от подделок в данном контексте представляются носители тональных языков, то есть языков, в которых слова и их смысл напрямую зависят от их звучания.
А главное интересно зачем такое создано и для чего? Он будет "разговаривать" вместо нас? С нами? Или со своими ИИ собратьями, ботами, чат-менеджерами?