ГОЛОС 23
Эта программа по сравнению с более ранними предыдущими меняет стратегию синтеза певческого голоса. Здесь за основу берётся сценарий исполнения песни известным певцом и далле производится подмена голоса певца на другой, для которого создается банк данных гласных звуков. Согласные звуки в основе сохраняются оригинальными.
Я буду в дальнейшем подразумевать подмену на собственный голос. Для меня эта программа понадобилась для создания песенных иллюстрации для книги и просто из любопытства.
Используемая терминология. Фонетическое членение песни.
Фонетика вокала соответствует устной речи, т. е. действует правило: как слышится, так и пишется. Поэтому перед синтезом вокала необходимо перевести письменную речь в грамотную устную речь. Особенностью вокала является нормальность неразрывности между словами. Для пения также не важен смысл, на распевках вообще используются только гласные звуки, потому что их достаточно для воспроизведения последовательности нот.
Песня фонетически представляет собой звуковой поток или цепь звучаний. Эта цепь распадается на соподчиненные звенья, являющиеся особыми, чисто фонетическими единицами языка, следующими друг за другом во времени.
Фонетические единицы песни как звенья песенной цепи:
1 — фразы — это самая крупная фонетическая единица; фразы разделяются в песенной цепи паузами, т. е. остановкой звучания, разрывающего звуковую цепь; во время пауз поющий вдыхает воздух, необходимый для произнесения следующей фразы;
2 — гласный звук (ГЗ) — гласные или согласные буквы, которые должны соответствовать нотам песни;
3 — негласный звук (НЗ) — всё остальные звуки песни;
4 — согласы — части устной речи между двумя гласными звуками;
5 — атом — звук, соответствующий одному периоду ГЗ;
6 — связка — звук плавного перехода между атомами ГЗ;
7 — фонема — минимальная неделимая единица языка.
Гласные звуки (иногда мы будем для простоты называть их нотами) могут быть гласными или согласными буквами:
— гласные — а, и, о, у, ы, э;
— согласные (типичные) — л, м, н, р (могут использоваться и другие буквы, правда, не всегда понятно зачем).
Фонемами могут быть все согласные буквы, причём их произношение может быть разным в различных комбинациях с другими буквами (например, ь, ъ и другие сочетания). К фонемам относятся также буква й, кроме того, начальный и конечный участки ГЗ.
Гласные буквы я, ё, ю, е — составные буквы:
Я — начальный участок — я — фонема, продолжение — а — ГЗ (нота а);
Ё — начальный участок — ё — фонема, продолжение — о — ГЗ (нота о);
Ю — начальный участок — ю — фонема, продолжение — у — ГЗ (нота н);
Е — начальный участок — е — фонема, продолжение — э — ГЗ (нота э).
Наконец, введём ещё 2 понятия.
Дискретизация — представление непрерывного аналогового звука в виде потока цифровых отсчётов.
Атомизация — представление гласного звука в виде потока атомов.
Полное описание атома — спектр ДПФ (дискретное преобразование Фурье), длительность периода и амплитуда.
Предпосылки синтеза подмены голоса
1 Восприятие атома ГЗ при синтезе звука по спектру ДПФ не зависит от фаз гармоник.
2 Отсутствие нулевой гармоники не заметно при восприятии атома ГЗ.
3 Подмена НЗ существенно не меняет восприятие фразы, если подменяемый и подмещающий голоса близки по тембру.
4 Характеристики атомов меняются во времени медленно и плавно.
Принятие этих допущений приводит к некоторой механистичности звука, Проблема очеловечивания голоса разрешима, но в данной статье не рассматривается.
Сценарий работы.
Программа не является коммерческой. Является продолжением книги: В. В. Петров. Эксперименты по анализу и синтезу певческого голоса. Изд. 2-е С-Петербург, 2024 г. Электронную версию можно скачать из файла новостей (см. Приложение)
Все программы работают на компьютере с характеристиками
- процессор: 4 процессорных ядра, 8 исполнительных потоков
- дисплей с разрешением экрана 1920 х 1080.
1 Прежде, чем начать работу с песней, нужно создать Банк данных своего голоса для подмены на него голоса исполнителя песни. Как это делается подробно описано в книге для программы ГОЛОС 20.
2 Выбранный для работы файл переименовываем в Песню и преобразуем в характеристики 192 кГц, 32-бит, моно. Разбиваем Песню на Adobe Audition маркерами на удобные фразы, ориентируясь на строки текста песни. Распределяем фразы по папкам.
3 Разделение песни на музыку и голос. Сейчас это можно сделать на многих сайтах. Я делаю это с помощью программы RVC1006AMD_Intel1. Эта программа для свободного использования, её можно скачать и установить.
Для каждой фразы запускаем программу и полученные файлы переименовываем в Голос и Музыка. В дальнейшем основная работа будет с файлами Голос.
4 Членение фразы Голос на гласные и согласы с помощью Adobe Audition. Для каждого элемента членения создаётся своя папка. Создаётся бланк задания Z для фразы Голос. В нём должны быть заполнены все позиции, за исключением длин атомов в связках. На бланке делаем разметку фрагментов фраз по паузам между ними. Я использую для разметки символ «---» через символ табуляции в конце строки бланка задания.
5 Членение гласных на атомы и создание таблиц атомов ТА. Это членение возможно выполнить двумя способами:
- с помощью Adobe Audition – ГОЛОС 23 - 2 ПРОВЕРКА sF,Markers-TM, 3 ТАБЛ АТОМОВ sF,TM-TА;
- с помощью программы Маркеры sF – TM_TA.
Первый вариант подробно описан в книге, второй – в приложении к статье (даны ссылки).
6 Членение гласных на атомы по фронтам является относительно простым, широко применяемым, но неточным способом. Для сглаживания ошибок членения используется программа Кор табл атомов ТА. Фактически, эта программа корректирует сценарий исполнения певцом гласного звука, и этот этап является самым трудоёмким.
7 Формирование звуковых файлов гласных – ГОЛОС 23 – 4 ГЛАСНАЯ TA,Z-s. Результаты собираются в папке Сборка.
8 В папку Сборка переносятся файлы согласов.
В примере использования алгоритма подмены за основу взяты ария Ленского в исполнении Лемешева и банк данных моего голоса, а также с помощью Adobe Audition использованы 2 эффекта:
- для гласных Waves Aphex Vintage Aural Exciter Mono;
- для согласов Параметрический Эквалайзер.
Параметры эффектов указаны в описании программы ГОЛОС 23 (см. приложение).
9 В бланке задания для фразы заполняются позиции длин атомов в описаниях связок. Эта информация определяется с помощью Adobe Audition.
10 Формируются связки с помощью программы ГОЛОС 23 - 5 СВЯЗКА Z-sn.
11 Используя разметку фразы на фрагменты с помощью отрезков тишины проводится сведение синтезируемой фразы с исходной по маркерам членения фразы (см. 4). Для этого последовательно используем программу ГОЛОС 23 - 6 СБОРКА s1…s60-U.
12 Когда будет собрана вся фраза, прослушиваем её и производим коррекцию амплитуды. Коррекцию можно проводить с помощью универсальной программы ГОЛОС 23 - 7 КОРРЕКЦИЯ АМПЛ U,Z-W (в Adobe Audition есть похожая программа). Однако, как правило, коррекция требуется для согласов, и, в этом случае удобнее пользоваться программой Кор ампл 2.
13 Окончательная сборка фраз с музыкой осуществляется в Adobe Audition.
Заключение
Далее я хочу попробовать иностранных певцов: Марио Ланца и Френка Синатру. Мне любопытно, как будет выглядеть мой иностранный акцент. Выйти на мои синтезированные Песни можно через файл новостей. Учитывая мои предыдущие попытки синтеза, я прихожу к следующим выводам.
Прямой синтез может использоваться при исполнении церковных и прочих песен, не требующих художественного исполнения. Для классически музыки (опера и т.д.) лучше подходит подмена голоса. Создание нового художественного исполнения требует больших трудозатрат и большего погружения в законы музыки.
Со временем, ИИ может привести к качественному созданию нового художественного исполнения вместо простого подбора подходящих вариантов из существующего исполнения. Возможно, путь к этому через изучение закономерностей таблиц атомов (ТА). Пока, для моей цели – музыкальной иллюстрации книги – мне достаточно достигнутого. Не исключаю, что ИИ со временем улучшит мои заготовки.
Приложения
1 Ария Ленского
https://disk.yandex.ru/d/7Y0qPdkhN6zqJA
2 Файл новостей
https://disk.yandex.ru/i/QxXsMmQGC8lPXA
3 ПО. Содержание запакованного файла.
Программы в формате Windows:
- ГОЛОС 23;
- Кор ампл 2 Z1_U - Wu_W;
- Кор табл атомов T - TA (Проба):
- Маркеры sF – ТМ_TA
Описание программ
- ГОЛОС;
- Кор ампл 2;
- Кор табл атомов ТА;
- Маркеры.
Фрагмент синтеза – Ах, Ольга, я тебя любил.