10 подписчиков

Синтез голоса виртуального артиста

28 апреля 202328 апр 2023

2 мин

Оглавление

Азиатский бум
Время ИИ
Что с вокалом?

Недавний пост про виртуальных артистов навел меня на мысли. Как у их создателей вообще получается создавать голоса, которые очень похожи на человеческие? И есть ли русскоговорящие виртуальные певцы/певицы?

Азиатский бум

Начнем с того, что одна из самых первых и популярных певиц с синтезированным голосом является японка Мику Хацунэ. Весь этот движ начался в стране восходящего солнца, а дальше распространился на другие азиатские страны. Просто чекните концерт на видео ниже и сразу понятно, что у нее фанатов не меньше чем у реальной поп-звезды.

Ок. Если с визуализацией таких персонажей все понятно, то откуда берется голос? Тем более Мику Хацунэ презентовали в далеком 2007 году, когда доступ к ИИ был, наверно, только у ученых и военных. Оказалось все просто - создается голосовой банк из семплов (кусочков аудиозаписей), а на его основе специальная программа имитирует голос на заданную мелодию и текст. Разработчики таких программ в основном японские. Оно и понятно, популярность виртуалов началась оттуда. Они даже создавали синтезаторы на основе своих разработок.

Время ИИ

С 2007 прошло достаточно времени и появился новый метод синтеза голоса – использование искусственного интеллекта и машинного обучения. Эти технологии позволяют анализировать голосовые данные и определять особенности, характеристики, скорость и тон голоса, а также использовать информацию об акценте и произношении, чтобы создавать более четкий и понятный звуковой сигнал. Но даже тут технология обучается на базе сэмплов, отсюда вывод, что вся синтезированная речь основана на реальном человеческом голосе.

Одним из наиболее популярных применений синтеза речи является создание голосовых помощников, таких как Алиса, Siri и т.д. Или использование технологии в озвучке рекламы и игр. Вот, например, российская разработка SteosVoice. У ребят есть свой телеграм-бот, который быстро озвучит вам присланный текст любым из доступных голосов.

Что с вокалом?

Тут тоже есть прогресс! В моей статье про ИИ, который сочиняет музыку, есть заметка про Jukebox. Технология очень реалистично имитирует голос Фрэнка Синатры или Курта Кобейна. Всё та же Мику Хацунэ, созданная на основе программы Vocaloid, уже переехала на рельсы ИИ.

Итог

Пока ни одна технология не синтезировала человеческую речь "с нуля", она использует чей либо голос как пример и инструмент для манипулирования. Фактически любой голос виртуального артиста является копией оригинального голоса, но это дело времени.

Кстати, с русскопоющими виртуальными артистами пока пусто :( А пока остается только ждать наших айтишных гигантов, подписаться на канал Роуди, чтобы быть в теме музыкальных инноваций и поставить лайк за проделанную работу!