984 подписчика

Глеб Ульянов о нейросетях в музыке: Человек – всё ещё куратор

19 января19 янв

174

7 мин

По словам продюсера, электронного музыканта и саунд-дизайнера Глеба Ульянова, технологии давно стали частью работы музыкантов, но сегодня они вышли на новый уровень. При этом Ульянов убежден – искусственный интеллект пока ещё спотыкается на «деталях», а законы, регулирующие его использование, слишком размыты. Маргарита Зоткина специально для «По Фактам» обсудила с экспертом актуальность использования нейросетей в музыке и подводные камни. В вашей профессии искусственный интеллект – это помеха в техническом, маркетинговом аспекте? Вы считаете это жульничеством или всё же полезным инструментом? Это, скорее, помеха в философском ключе. Например, в таких фирмах, как iZotope, которые занимаются разработкой аудиоплагинов для обработки звука, элементы искусственного интеллекта встречаются уже лет 10, если не больше. Они активно внедряли это как мастеринг-ассистенты, как микс-ассистенты. Так что сама идея использования подобных технологий витала в воздухе даже дольше, чем последние пару лет.

В вашей профессии искусственный интеллект – это помеха в техническом, маркетинговом аспекте? Вы считаете это жульничеством или всё же полезным инструментом?

Это, скорее, помеха в философском ключе. Например, в таких фирмах, как iZotope, которые занимаются разработкой аудиоплагинов для обработки звука, элементы искусственного интеллекта встречаются уже лет 10, если не больше. Они активно внедряли это как мастеринг-ассистенты, как микс-ассистенты. Так что сама идея использования подобных технологий витала в воздухе даже дольше, чем последние пару лет.

С другой стороны, больше на слуху генеративные модели, которые по текстовому описанию могут привести вполне употребимый результат. И чем дальше использование таких технологий, тем активнее вымываются начальные рабочие позиции. Это затронуло не только визуальную часть, но уже и звуковую.

Однако мне кажется, пока сложно делать далеко идущие выводы. Любая новая технология довольно часто воспринимается обществом, особенно профессионалами, немного в штыки. Тревожит ли это меня? В принципе, тревожит. Часто ли я сам это использую? Не очень. Но меня и моих товарищей это, скорее, мотивирует улучшать и обновлять свои навыки, потому что мне всё равно видится, что человек – куратор. Пока что мы всё ещё решаем, что подойдёт, а что – нет.

Вы затронули тему звучания. Может ли искусственный интеллект помочь в поиске уникального звучания, или, наоборот, он делает музыку более однообразной?

Думаю, ещё не пришло время, чтобы сказать однозначно. Если копнуть глубже под капот алгоритмов, можно что-то собрать из материала, на котором они были обучены. С другой стороны, появление новых тенденций в музыке в последнее время происходит подобным образом: мы берем две-три стилистики, смешиваем и получаем некий результат. Мы тоже своего рода «нейронки».

Но с точки зрения звучания искусственный интеллект выдают детали: иногда не совсем грамотно выстроена звуковая картина, где-то атаки ударных инструментов немного смазываются, где-то некорректно звучат переходы по форме. Мне видится, что грань пока слышна, но только если стоит задача её опознать. Слушая подобную музыку с телефона или планшета, трудно сказать, что что-то выдаёт искусственное звучание.

Думаю, это вполне работает как хороший аттракцион. По персонализированному запросу можно получить ровно то, что хочется услышать, и при создании и демонстрации клиентам каких-нибудь поздравительных, корпоративных песен это делается в разы быстрее, чем с привлечением человеческого труда.

Представим, что вы сели за создание очередного трека. Для чего лично «разогнать» идею, найти определённый стиль звучания, сделать запрос на какой-либо инструментал?

Я проводил эксперимент: отправил нейросети бит с басом, описал идею, и она развила это в полноценный трек. Опять же, слегка выдавали переходы, но интеллект и струнных добавил, и мелодические ходы интересные. Если это рассматривать как поиск идеи, при работе с теми же аранжировками удобно быстро показать заказчикам, что можно увести музыку в то или иное звучание.

Пока что не очень удобно редактирование, когда, например, всё нравится, но хочется поменять какой-то определённый элемент без новой генерации всего остального, так сделать не получится. Мой товарищ более погружён в эту тему и активно её исследует. Он быстро делает музыкальную часть и потом использует искусственный интеллект для генерации вокала, показывая артистам промежуточный результат в качестве демо-версии.

Поэтому если рассматривать нейросети как точечный инструмент, то это хороший ускоритель процессов. Но пока, обладая навыками работы в звуковых программах, можно заниматься этим более персонализировано, не обращаясь полностью к нейросетям. Только учитывая скорость развития всего, это дело максимум пары лет.

Вы упомянули создание голосов посредством технологий. Где, по вашему мнению, проходит грань между творческой фишкой и мошенничеством в генерации и использовании голоса?

Думаю, грань проходит там, где её законодательно определят. С точки зрения авторских прав это очень спорная территория. Даже до прихода искусственного интеллекта были вопросы: что, где и почему является заимствованием, как это оформлять юридически? Частые прецеденты, происходящие сейчас из-за данной новизны, показывают, что законодательная база не успевает оперативно реагировать.

Лично я делаю какие-то эксперименты в свободное время, но как основной рабочий инструмент пока не спешу это использовать. Мало ли, что потом может произойти с регулированием, авторским правом, перечислениями. Я отношусь к этому исследовательски. Самый расхожий совет в таком случаем: «кради как художник».

У этого есть своя аудитория, поэтому массовый сегмент, видимо, будет больше наполняться нейромузыкой. Но те, кто выполняет профзадачи, либо просто ценит музыкальное мастерство и человеческое участие, такой сегмент будут сужать. Сейчас такое время, когда не хватает живого общения, поэтому выбор музыки больше зависит от конкретной задачи, конкретного настроения слушателя. Просто палитра расширяется.

Считается, что искусственный интеллект часто обходит человека в эмпатии и мягкости в силу своих настроек. Может ли тепло звучания отразиться в сгенерированном голосе, или пока всё же только человеческий голос остаётся живым и уникальным?

Буквально недавно со студентами пробовали, и звучало очень реалистично. Другое дело – принцип создания. Нейросети, не обладая какой-то целью, просто перебирают варианты. Поэтому, если указать нужные параметры, они всё сделают. Тренируясь на соответствующем материале, они довольно часто создают эмоциональность в голосе, главное помнить, что это имитация. Вот актерство – считать за правду или за ложь? Эмоции же изображаются, но существуют разные школы, принципы и техники, как их передавать. Мне кажется, это просто ещё один инструмент, который делает подобное. А верить или не верить – красота в глазах смотрящего.

По вашему мнению, если часть трека была сделана искусственным интеллектом, должен ли слушатель знать об этом?

Тут соцсети немного ушли вперёд: во многих из них уже есть графа, сообщающая об использовании искусственного интеллекта. Хотя в большей степени всё зависит от автора и его настроек. Предполагаю, это будет существовать в виде неких метаданных, что-то можно будет прочитать в свойствах файла или в кредитсах, то есть списке участвовавших в создании. Указывать, наверное, стоит, но всем ли слушателям необходимо знать, что было? Здесь вопрос позиционирования и того, что станет нормой. Но уже сейчас многие поговаривают, что будут выигрывать живые музыканты, способные сыграть полноценный концерт. Зачастую даже диджей-сеты требуют лишь нажать кнопку, и трек запустится. Всё же кажется, в экономике внимание будет рассчитано на то, что удерживает людей на платформах. Если окажется, что сгенерированные изображения, видеоролики, аудио больше привлекают аудиторию, то такой контент будет больше поощряться и туда будет вкладываться капитал.

Кто тогда является автором трека, если значительную часть работы выполнил искусственный интеллект?

По-моему, в таком случае нужно вновь обратиться к законодательству. В западном варианте, например, существуют исполнительские и авторские права на песню, отдельно на музыку, отдельно на текст, даже на фонограмму и звукозапись. Важно понимать – как всё будет зафиксировано, так оно и будет.

Стоит оценивать задумку, потому что глобально побеждает реализованная идея. Тут уже вопрос с инструменталом: для человека, который занят производством музыки, это может ощущаться несправедливо. Однако история показывает, что новым поколениям всё даётся легче. Даже если мы рассматриваем полную работу нейросети и пару человеческих правок – промпт же кто-то пишет. И мы снова упираемся в пользовательское соглашение конкретного сервиса, где прописано, что и где вы можете или не можете использовать. Лазейки можно найти везде, но я, скорее, за реализованную идею.

Также важно, что останется из применимого, когда все наиграются. Приживётся ли это всё? Наверное, нет. Но как и с любой новой технологией, нужно время, чтобы пользователи приняли её, а производители поняли, для чего та чаще и лучше используется, и направили внимание и финансирование на развитие этих областей.

Гаджеты и электроника

5,73 млн интересуются