7 подписчиков

Создать клонов — использование искусственного интеллекта для воспроизведения голоса

29 января 202229 янв 2022

6 мин

Наука, лежащая в основе того, чтобы заставить машины говорить так же как люди, очень сложна, потому что наши речевые модели настолько тонки. «Голос нелегко уловить», — говорит Клаус Шерер, почетный профессор психологии эмоций Женевского университета. «Для анализа голоса действительно требуется довольно много знаний об акустике, вокальных механизмах и физиологических аспектах. Так что, это обязательно междисциплинарно и довольно требовательно с точки зрения того, чем вам нужно овладеть, чтобы сделать что-то важное». Поэтому неудивительно, что синтетическим голосам потребовалось более 200 лет, чтобы перейти от первой говорящей машины, изобретенной Вольфгангом фон Кемпеленом около 1800 года, — устройства, похожего на коробку, в котором использовались мехи, трубы и резиновый рот и нос для имитации нескольких узнаваемых человеческих высказываний, таких как мама и папа, — к голосовому клону Сэмюэля Л. Джексона, который сегодня сообщает о погоде на Alexa. Говорящие #машины , такие как Siri, #

Оглавление

Репортер клонируют ее голос
Быстро развивающаяся отрасль
Когда слишком человечно — это слишком много

Наука, лежащая в основе того, чтобы заставить машины говорить так же как люди, очень сложна, потому что наши речевые модели настолько тонки.

«Голос нелегко уловить», — говорит Клаус Шерер, почетный профессор психологии эмоций Женевского университета. «Для анализа голоса действительно требуется довольно много знаний об акустике, вокальных механизмах и физиологических аспектах. Так что, это обязательно междисциплинарно и довольно требовательно с точки зрения того, чем вам нужно овладеть, чтобы сделать что-то важное».

Поэтому неудивительно, что синтетическим голосам потребовалось более 200 лет, чтобы перейти от первой говорящей машины, изобретенной Вольфгангом фон Кемпеленом около 1800 года, — устройства, похожего на коробку, в котором использовались мехи, трубы и резиновый рот и нос для имитации нескольких узнаваемых человеческих высказываний, таких как мама и папа, — к голосовому клону Сэмюэля Л. Джексона, который сегодня сообщает о погоде на Alexa.

Говорящие #машины , такие как Siri, #Google Assistant и Alexa, или автоматизированная линия обслуживания клиентов банка, теперь звучат вполне по-человечески. Благодаря достижениям в области искусственного интеллекта, мы достигли точки, когда иногда трудно отличить синтетические голоса от реальных.

Я хотел выяснить, что связано с процессом на стороне клиента. Поэтому я обратился в компанию Speech Morphing, занимающуюся синтезом речи на естественном языке в районе залива Сан-Франциско, с просьбой создать #клон – или «цифрового двойника» – моего собственного голоса.

Репортер клонируют ее голос

Учитывая сложности синтеза речи, это настоящий #шок , когда узнаешь, насколько легко его заказать. Для базовой разговорной сборки все, что нужно сделать клиенту, — это записать, как он произносит несколько строк по сценарию примерно в течение часа. И на этом все.

«Мы извлекаем от 10 до 15 минут сетевых записей для базовой сборки», – говорит основатель и генеральный директор Speech Morphing Фатти Ясса.

Сотни фраз, которые я записываю, чтобы Морфинг речи мог создать мой цифровой голосовой двойник, кажутся очень случайными: «Здесь взрыв веселья заглушил его». «Это то, что сделал Карнеги». «Я бы хотел быть похороненным под стадионом Янки вместе с Кеннеди» и так далее.

Но они не так случайны, как кажутся. Ясса говорит, что компания выбирает высказывания, которые будут воспроизводить достаточно широкий спектр звуков по целому ряду эмоций, таких как извиняющиеся, восторженные, сердитые и так далее, для обучения системы ИИ на основе нейронной сети. По сути, он сам обучается по специфическим образцам речи человека.

Трансформирующая речь основателя и генерального директора Фатти Ясса

Ясса говорит, что на выбор есть около 20 эффектов или тонов, и некоторые из них можно использовать взаимозаменяемо или вообще не использовать. «Не каждый тон или аффект необходим для каждого клиента», – говорит он. «Выбор зависит от целевого значения и вариантов использования. Банковское дело отличается от электронных книг, отличается от отчетности и вещания, отличается от потребителя».

В конце сеанса записи я отправляю речь, преобразующую аудиофайлы. Оттуда компания анализирует мои высказывания, а затем строит модель, на которой ИИ может учиться. Ясса говорит, что весь процесс занимает меньше недели.

Он говорит, что возможности голосового клона Хлои Велтман – или «Клони», как я ласково стал называть себя роботом, – почти безграничны.

«Мы можем заставить вас извиниться, мы можем сделать вас рекламным, мы можем заставить вас вести себя так, как будто вы находитесь в театре», – говорит Ясса. «В конце концов, мы можем заставить тебя петь, хотя мы этого еще не достигли».

Быстро развивающаяся отрасль

Глобальная индустрия распознавания речи и голоса оценивается в десятки миллиардов долларов и быстро развивается. Её польза очевидна. Технология дала актеру Вэлу Килмеру, который несколько лет назад потерял #голос из-за рака горла, шанс вернуть себе что-то, приближающееся к его прежним вокальным способностям.

Это позволило режиссерам, создателям аудиокниг и геймдизайнерам разрабатывать персонажи без необходимости иметь под рукой талант живого голоса, как в фильме Roadrunner, где искусственный интеллект ( #ИИ ) был обучен обширному архиву выступлений Энтони Бурдена в средствах массовой информации для создания цифрового двойника голоса покойного шеф-повара и телеведущего.

Каким бы совершенным не был цифровой голосовой двойник Бурдена, он также вызвал споры. Некоторые люди высказывали этические опасения по поводу того, чтобы вложить в уста Бурдена слова, которые он на самом деле никогда не произносил при жизни.

Клонированная версия голоса Барака Обамы, предупреждающего людей об опасностях фальшивых новостей, созданная актером и режиссером Джорданом Пилом, подчеркивает суть: иногда у нас есть причины опасаться машин, которые звучат слишком похоже на нас.

«Мы вступаем в эпоху, когда наши враги могут сделать вид, что кто-то, что-то говорит в любой момент времени», – говорит подделка Обамы в видео, снятом в сотрудничестве с BuzzFeed в 2018 году. «Даже если они никогда бы не сказали таких вещей».

Когда слишком человечно — это слишком много

Иногда однако, мы не обязательно хотим, чтобы машины звучали слишком по-человечески, потому что это пугает нас.

Если вы ищете цифрового голосового двойника, чтобы читать аудиокниги детям, или выступать в качестве компаньона или помощника для пожилых людей, более человеческий голос может быть правильным выбором.

«Может быть это не то, что на самом деле дышит, потому что это немного жутковато, но немного более человечно может быть более доступным», – говорит дизайнер пользовательского опыта и голоса Эми Хименес Маркес, которая в течение четырех лет возглавляла команду разработчиков голоса, мультимодального и пользовательского интерфейса #Amazon Alexa.

Но для машины, которая выполняет основные задачи, как скажем, холодильник с голосовой активацией? Может быть лучше быть менее человечным. «Имея что-то немного более роботизированное, и вы даже можете создать металлический голос, который звучит как настоящий симпатичный #робот , это больше подошло бы для холодильника», – говорит Хименес Маркес.

Большое открытие

На демонстрационной сессии с преобразованием речи я слышу Клони, моего цифрового двойника голоса.

Ее голос доносится до меня через пару портативных динамиков, подключенных к ноутбуку. Ноутбук отображает программный интерфейс, в который вводится любой текст, который я хочу, чтобы Клони сказала. Интерфейс включает в себя инструменты для микронастройки высоты тона, скорости и других вокальных атрибутов, которые, возможно, потребуется изменить, если просодия Клони звучит не совсем правильно.

Послушайте, как «Клони» декламирует «С Днем рождения» (ссылка в тексте).

«С днем рождения тебя. С днем рождения тебя. С днем рождения, дорогая Хлоя. С днем рождения тебя», – говорит Клони.

Клони не может петь «С днем рождения», по крайней мере сейчас. Но она может зачитывать #новости , о которых я даже не сообщала сама, например, вырванные из ленты новостей AP о пандемии #COVID-19 . И она даже может сделать это по-испански.

«Клони» очень похожа на меня. Это впечатляет, но в то же время немного пугает.

Послушайте, как «Клони» читает новости на английском языке (ссылка в тексте).

Вот «Клони» читает репортаж на испанском (ссылка в тексте).

«Моя челюсть на полу», – говорит оригинальный голос позади Клони – это я, Хлоя, – когда я слушаю, что может сделать мой цифровой голосовой двойник. «Будем надеяться, что она не уволит меня с работы в ближайшее время».