Люди издавна мечтали о создании механического голоса. Еще древнеримский поэт Вергилий, а позже Роджер Бэкон и Папа Сильвестр II утверждали, что владеют “говорящими головами” — медными устройствами в форме человеческих черепов, способными отвечать на вопросы. Первые реальные попытки воспроизвести человеческий голос относятся к 1779 году, когда русский профессор Христиан Кратценштейн сконструировал машину, генерирующую пять гласных звуков (А, Е, И, О, У). В следующем столетии все больше ученых работали над созданием собственных “говорящих” устройств, а в начале XX века электрические синтезаторы значительно улучшили качество воспроизводимой речи.
Первый образцы компьютерного пения появились в 1961 году. Используя технологию вокодера собственной разработки, ученые из Bell Laboratories в Нью-Джерси заставили компьютер IBM 704 “исполнить” песню “Daisy Bell”.
Работа Джона Келли, Кэрол Локбаум и Макса Мэтьюса по созданию синтезированного вокала и музыки в Bell Labs настолько впечатлила Артура Кларка, что он предложил Стэнли Кубрику использовать эту технологию в «2001: Космической одиссее».
Исследования по улучшению компьютерного пения продолжались. “К концу прошлого века наиболее успешным и убедительным синтезом стала ария “Королевы ночи” из оперы Моцарта “Волшебная флейта”, созданная в 1984 году Ивом Потардом и Ксавье Родитом с использованием программного синтезатора Chant.”, - рассказывает Жорди Бонада, старший научный сотрудник группы музыкальных технологий в Университете Помпеу Фабра в Барселоне.
Фрагмент "Королевы ночи" сгенерированной Chant
Он знает, о чем говорит. Бонада занимался синтезом пения практически всю свою карьеру. Примерно в 1997 году, когда он начал работать в университете Помпеу Фабра, компания Yamaha предложила команде университета поучаствовать в интересном исследовательском проекте по трансформации голоса. Этот проект, как говорит Бонада, стал отправной точкой для чего-то гораздо большего. Цель проекта состояла в том, чтобы улучшить звучание плохих певцов в караоке. «Кодовое название проекта было „Элвис“, и он продолжался два года, – рассказывает Бонада. – Но он так и не стал коммерческим продуктом. Одной из причин было то, что система использовала методы спектрального морфинга и требовала записи профессионального певца для каждой песни». Это было слишком масштабное начинание, учитывая огромный репертуар песен в японских караоке.
“После Элвиса стало ясно, что лучше создавать не просто вокал для конкретного исполнителя, а разработать вокальные блоки с большим набором звуков. Так мы могли бы создать модель, способную исполнять любую песню”, - пояснил Бонада. “Исходя из этой идеи, мы договорились с Yamaha начать исследовательский проект по созданию синтезатора голоса. Именно тогда я впервые познакомился с Хидеки Кенмочи.”
Хидеки Кенмочи, которого сейчас знают как “Отца Vocaloid”, музыку любил с детства. Он рос в живописной префектуре Шизуока, где с удовольствием играл на органе в детском саду. Его мать, заметив тягу сына к музыке, записала его на уроки. Однако, в 10 лет Хидеки потерял интерес к занятиям. “Мне это больше не нравилось,” - вспоминает он со смехом. В юношестве, в 16 лет, Кенмочи увлекся скрипкой, хобби, которому он предан до сих пор. Но именно его субботние занятия в подростковом возрасте, его увлечение технологиями и звуком, в конечном счете и принесли ему почетное звание “Отца Vocaloid”.
«Раньше я целыми днями слушал ламповые радиолы. Знаете, такие, где надо было крутить ручку, настраивая частоту и ползунок-указатель двигался среди ряда чисел», – рассказывает Кенмочи, демонстрируя старые журналы, посвященные радиоприемникам. Для будущего отца Вокалоида это увлечение стало своеобразным мостом к информационным технологиям. «Однажды я пошел на небольшую компьютерную выставку с приятелем. Мы попытались написать простые программы, но ничего не получилось. К счастью, один из посетителей подсказал нам, как это делается. Это меня увлекло. У меня не было денег на свой компьютер, поэтому я стал проводить выходные и праздники в компьютерном магазине. Целыми днями просиживал там, пробуя писать программы. Приносил с собой обед в коробке».
В 1993 году Кенмочи начал работать в Yamaha. Он занимался проектами по активному подавлению шума, например, разрабатывал наушники с шумоподавлением. В 2000 году он стал участником совместного проекта Yamaha и университета Помпеу Фабра в Барселоне. Целью проекта была разработка технологии синтезатора, имитирующего пение. Бонада поясняет, что основные исследования проводились в Барселоне, где разрабатывались библиотеки обработки сигналов на C++, а Yamaha занималась дизайном и разработкой конечного продукта.
В команде Pompeu Fabra в Барселоне работа над проектом Elvis началась с нескольких ключевых моментов. Одна из задач заключалась в том, чтобы найти способ обработки и изменения записей певцов, чтобы звучание песни было максимально естественным и создавало ощущение непрерывного потока. “Мы также хотели добиться естественного преобразования тембра голоса, сохранив при этом его мельчайшие детали”, - объясняет Бонада. Для этого была разработана новая голосовая модель (E.P.R.1). Хотя проект Elvis не стал коммерческим продуктом, многие его открытия и наработки легли в основу будущего Вокалоида.
“Мы обсуждали и обсуждали, каким должен быть вокал в синтезаторе, – рассказывает Кенмочи. – Мы в Yamaha разработали базовую структуру для системы. В результате совместной работы в марте 2002 года появился прототип Vocaloid, который тогда получил рабочее название “Дейзи” (Daisy)”.
Хотя интерфейс со временем стал проще, основная идея программы осталась прежней. Пользователи пишут тексты песен и могут настраивать различные параметры сгенерированного компьютером голоса, например, высоту тона или длительность произнесения слогов. Сейчас пользователи также могут выбирать разные стили вокала. Но, как признает Кенмочи, “есть один стиль, который мы до сих пор не можем реализовать в Vocaloid – это очень грубое пение. Программа предполагает, что можно определить высоту звука – основную частоту. Но в грубом голосе это не всегда возможно. Но мы работаем над этим”.
Следующим шагом стало решение вопроса о коммерциализации продукта. “Изначально Yamaha рассматривала возможность самостоятельной продажи программного обеспечения,” – вспоминает Кенмочи, – “но Vocaloid – это синтезатор пения, и ключевым элементом является именно голос. Мы могли бы создать собственную голосовую библиотеку, но ее возможности были бы крайне ограничены. Поэтому мы решили лицензировать технологию сторонним компаниям.”
Когда все организационные вопросы были улажены, прототип Vocaloid впервые показали миру в 2003 году на немецкой музыкальной выставке Musikmesse. “Сначала мы хотели назвать его “Дейзи”, но довольно быстро отказались от этой идеи,” – смеется Кенмочи. “Нам нужно было зарегистрировать название как товарный знак, а “Дейзи” оказалось занято. Vocaloid, кстати, не был нашим вторым вариантом после “Дейзи”. Следующим названием, которое мы хотели использовать, было… Я, к сожалению, не могу его раскрыть. Мы были уверены на 95%, что сможем его использовать, но затем, при проверке в Бельгии, выяснилось, что существует программное обеспечение с очень похожим названием. Пришлось отказаться и от этой идеи.”
К счастью, их третий выбор – Vocaloid – оказался свободен для регистрации во всех странах, включая Бельгию. Первая версия Vocaloid стала доступна широкой публике 3 марта 2004 года, когда британская компания Zero-G выпустила Leon и Lola – мужской и женский голоса соответственно. Однако, потребовалось время, прежде чем программное обеспечение приобрело широкую популярность.
Сейчас все кажется очень простым, вот как примерно происходит запись для голосового банка : в студии звукозаписи атмосфера разряжена, актриса озвучивания Ю Асакава и менеджер по глобальному маркетингу Crypton Future Media, шутливо напевают “Happy Birthday” в стиле Мэрилин Монро. За пультом звукорежиссеры готовятся к финальному этапу работы над английской версией Vocaloid. “Пришло время для окончательного чтения,” – объявляет Ватару Сасаки. Асакава, после нескольких репетиций, произносит слово “Ботаник” в различных интонациях, пока режиссер не дает отмашку. Работа над записью очередного фрагмента голосового банка завершена.
«Работа над другими проектами озвучки, такими как аниме или видеоигры, предполагает от меня актерскую игру: нужно передавать эмоции, быть страстным, грустным, даже кричать,» – делится Асакава. «А Vocaloid – это совсем другое. Там нужно постоянно выдерживать один и тот же тон голоса, что довольно трудно. Я не могу позволить себе ничего лишнего накануне - ни мороженного, ни острого, даже не выпить (смеётся) накануне записи для Vocaloid, иначе моё горло может не выдержать.»
Конечно, разработчики Vocaloid это Yamaha в сотрудничестве с Университетом Помпеу Фабра. Но в культурный и музыкальный феномен технологию превратила компания Crypton Future Media из Саппоро. Именно там создали персонажа Хацунэ Мику, а Ватару Сасаки, разработчик компании и создатель Мику, придумал детали, которые сделали ее идеальным аватаром для Vocaloid.
Когда первая версия Vocaloid появилась в магазинах в 2004 году, она не пользовалась большим спросом. Хидеки Кенмочи, глава «голосового» подразделения Yamaha, признает, что одна из причин низких продаж Vocaloid 1 заключалась в плохом маркетинге продукта. Как пример, он показывает фотографии старой упаковки Leon и Lola от компании Zero-G. На них была только фотография губ крупным планом и немного текста.
Хацунэ Мику была создана Crypton для второй версии Vocaloid, которая имела более плавное звучание и удобный интерфейс, это не было единственное изменение. “Vocaloid 1 анализировал человеческий голос, чтобы его воспроизвести. В Vocaloid 2 мы хотели использовать настоящие человеческие голоса,” - говорит Сасаки, который давно интересовался музыкой, основанной на семплах. Он вырос на такой музыке, упоминая DJ Shadow в качестве примера, хотя наклейки на его ноутбуке намекают и на другие источники вдохновения. В подростковом возрасте Сасаки сам делал музыку, основанную на семплах, и работал в основном на семпловых CD-дисках для музыкантов андеграунда.
“Задача была – создать голос для Хацунэ Мику. Хотелось чего-то простого, но при этом очень ясного,” – рассказывает Сасаки. Он говорит, что сразу представлял себе конкретных актрис, и в итоге выбор пал на Саки Фуджита, у которой отличный “анимешный” голос. “Первая запись с Саки получилась просто замечательной. Обычно запись голоса - это долгий процесс, актерам сложно в течении долгого времени выполнять все требовании записи голосового банка, но Фуджита была очень сосредоточена.”
После создания вокальной базы и разработки дизайна иллюстратором Кеем Гаро, вокалоид Хацунэ Мику (имя которой примерно переводится как “Первый звук будущего”) была готова к продаже. Покупатели сразу же заинтересовались этим персонажем: магазины распродавали программное обеспечение с Мику, и Crypton поначалу не успевала за спросом. “Я был в Антверпене на конференции, когда стартовали продажи, и представлял Vocaloid,” – рассказывает Кенмочи. “Мне позвонил Сасаки и сказал, что Хацунэ Мику продается просто отлично! Гораздо лучше, чем мы ожидали!”.
Самым гениальным решением Crypton было оставить Мику чистым листом. После запуска продаж появилась немного информации о Мику: ее возраст (16 лет), рост (158 см) и вес (42 кг). И на этом, в основном, всё. Crypton позволили пользователям самим придумать Мику характер и историю.
Они попали в популярное направление, известное как сообщество “Додзин”. “Додзин” – это творчество, в основном комиксы, где используются уже существующие персонажи для создания фанфиков. Vocaloid отлично вписался в эту среду и вышел за рамки просто музыки. Художники и авторы любительских клипов тоже заинтересовались Хацунэ Мику.
Crypton активно поддерживали такое использование персонажа. Они создали “Лицензию на символ Piapro”, которая позволяла пользователям делать с изображением Мику всё, что угодно.
Продюсер Vocaloid, Hachioji-P, рассказывает: «О Хацунэ Мику я узнал благодаря платформе Нико Нико, не работал тогда ещё с вокалоид». Сегодня он один из самых известных японских продюссеров, работающих с Vocaloid. Он создает электропоп-композиции, в которых ведущую роль играет цифровой голос Мику, выступает в клубах и на мероприятиях, организованных Нико Нико. «Я уже занимался музыкой, делал клубную музыку, но все это было инструментальным, – объясняет Hachioji-P. – Просто не знал никого, кто мог бы спеть в моих треках».
Общение в интернете с другими создателями Vocaloid привело Hachioji-P к участию в реальных событиях. Он посещал “The Voc@Loid M@Ster” – мероприятие, где независимые авторы продавали свою музыку и другие работы фанатам Vocaloid. Сначала Hachioji-P просто ходил на тематические вечеринки, которые организовывались благодаря росту популярности Vocaloid. Потом он стал на них выступать. “Мы почувствовали, что дело серьезное, когда нас начали приглашать играть в крупные клубы в Сибуе и Роппонги,” - говорит Hachioji-P.
Вокалоиды завоевывали все больше поклонников. Музыкальные ритейлеры, включая Tower Records Japan, не отставали от тренда, открывая целые вокалоидные отделы. Крупные бренды, такие как CHASE MANE FAMILY MARTE MARTE MARTENCALE, запускали масштабные рекламные акции с Хацунэ Мику, предлагая публике запоминающиеся ролики. Караоке-системы Dam заполонили сотни вокалоидных песен, которые быстро стали хитами по всей Японии. Энтузиасты настолько увлеклись созданием персонажей и собственных библиотек, что это привело к появлению нового поджанра, Utau, использующего бесплатное программное обеспечение.
Позже Vocaloid перерос в настоящее искусство. Исао Томита, один из первых японских музыкантов, использующий Vocaloid, еще в конце 2012 года представил симфонию, в которой главную роль исполнила Хатсуне Мику. Вскоре после этого появилась опера под названием «Конец» с её участием. И, конечно же, живые выступления с голографическими исполнителями стали невероятно популярными.
Японские поп-звезды попытались воспользоваться успехом Vocaloid. Певица Маю Ватанабе, участница популярнейшей японской группы AKB48 и, формально, самая популярная участница по результатам июньских выборов, в 2012 году выпустила сингл в стиле электропоп под названием «Hikaru Monotachi». Для его создания был приглашен Hachioji-P, а в клипе Ватанабе намеренно сделали похожей на Vocaloid. «Когда я работала над песней, мне сказали: “Сделай так, чтобы она звучала как Vocaloid”. Я пыталась, но мне так и не удалось… всегда оставался какой-то эмоциональный оттенок. Но я подумала, что для человека это неплохо… у Vocaloid нет эмоций, но именно это отличает программное обеспечение от настоящего человека».
Сегодня существует несколько активных вокалоид-движков, но наиболее популярны Yamaha Vocaloid 5, Piapro Studio (используется для Hatsune Miku) и CeVIO AI. У каждого движка свои особенности и преимущества, но все они позволяют создавать реалистичные вокальные партии, недостижимые еще несколько лет назад.
Рынок вокалоид-контента огромен. Hatsune Miku, самый известный вокалоид, – это не просто голос, а полноценный виртуальный поп-идол. Её голографические концерты собирают десятки тысяч зрителей. По данным Crypton Future Media (компания, создавшая Hatsune Miku), экономический эффект от использования Мику и ее бренда оценивается в сотни миллионов долларов в год. Примерно 60% фан-контента о Hatsune Miku - это музыка, а остальное – это арты, косплеи и истории.
За последние годы вокалоид активно проник в мейнстрим. Вокалоид-продюсеры, такие как wowaka, Kikuo и Mitchie M, имеют миллионы прослушиваний на стриминговых платформах. Их стиль и звуковая эстетика оказали значительное влияние на современную поп-музыку. В 2018 году Gorillaz использовали вокалоид-голос для песни “Hollywood”, что стало одним из первых крупных коммерческих прорывов вокалоида в западной поп-музыке.
Новые возможности вокалоидов, основанные на AI, позволяют не только синтезировать, но и манипулировать голосом, имитировать стили разных исполнителей и даже создавать “голоса” на основе живых записей. Это открывает новые горизонты для экспериментов и позволяет создавать совершенно уникальные и невозможные ранее вокальные партии. Вокалоид – это больше не просто синтезатор, а полноценный музыкальный инструмент с огромным потенциалом, активно формирующий современную музыкальную сцену.
Источники:
https://daily.redbullmusicacademy.com/2014/11/vocaloid-feature