76 подписчиков
Рубрика упоротое/не вошедшее + немного закулисья
Касательно шансон-версии, я изначально хотел, чтобы AI взял новость, по её мотивам написал текст песни, и сам же спел. Но Perplexity не хотел укладывать слова в рифму как нужно, Suno слишком упрощал ради певучести и терял нить, а Udio уходил в дисгармонию и слабое следование промту (об этом дальше).
В итоге текст песни я написал сам за пару часов на лавке.
Голос я хотел хриплый в стиле Бутырки. Но в датасетах явно ощущалась нехватка lihie_90e.wav. Выдавалось что-то более попсовое, хотя были среди них и интересные варианты. По крайне мере моё восприятие блатной песни не бьётся с результатами.
Когда я отпустил идею с хрипотцой, начал играться с промтами. Как это ни странно, наиболее короткие, лучше всего себя показывали. Вероятно потому что меньше всего уводили от шаблона. Но тут нужно больше разных тестов, чтобы делать какие-то выводы.
Скажем в шансон, мужской вокал артефактов и шумов намного меньше, чем в блатной тюремный русский шансон, хриплый мужской голос.
Разницы в промте на русском и на английском сильной не заметил.
Думал в Udio будет легче и быстрей всего собрать, что нужно. Но на деле со всеми рульками для контроля получить искомый звук не выходило: слабое следование промту, сильная дисгармония, шумы. И это как в генерации по 32 секунды, так и в модели Udio-130, которая генерит сразу 2 минуты. Если дать модели поимпровизировать с промтом и текстом песни, то результат вероятно будет лучше, но у нас текст же на руках — нам нужна конкретика. Ещё можно допустить, что лирика слишком длинная для 2 минут, но Suno, например, не моргая ваял варианты и под такой формат.
Это очень удивило, так как раньше Udio никогда не подводил. И, по отзывам, я не единственный, кто заметил проблему. Вероятно перед судом чистят датасеты и делают моделям лоботомию. В деле против Udio все треки по ссылкам на сайт удалены. А вот в деле против Suno ссылки пашут — разрабы ничего удалять не стали. И это ощущается. Впрочем, тот факт, что они разыгрывают деньги для топ авторов показывает насколько плотно они сидят на своей позиции.
Ещё у обоих нейронок проскакивают проблемы с ударениями. У Suno это лечится прописыванием буквы с ударением, например а́, или заглавной А. В то время как Udio на тестах это игнорил в любом случае. Начальные слова могут жеваться и там, и там. В Suno порой помогает поставить в начале [Intro]. В Udio можно и отдельно Intro сделать и нужные слова/фрагменты перегенерить.
В итоге основную часть трека я сделал в Suno. Основную, а не целиком, потому что куплеты и припев были слишком близко друг к другу, плюс некоторые слова перемешаны местами. Был бы контроль через сид, инпейтинг и рульки, можно было бы прямо в интерфейсе порешать. Но так как их пока нет, я в DaVinci разобрал трек на кусочки, переставил слова как надо, и оставил пустые места там, где нужно добавить инструментальные партии. Дальше закинул это в Udio и через Inpaint впилил piano, contrabassoon, percussion в целевые фрагменты, чтобы сшить трек воедино.
Так что, конечная композиция это результат взаимодействия Suno и Udio.
Я поплотнее погоняю все фичи на обоих сервисах и скорее всего сделаю обзоры на ютубе.
///
А рэп... я просто своих мыслей накидал и пустил как есть... ну оно и сгенерилось как ожидал в лобовую) С одной стороны чешется переделать в рифму, с другой стороны мне нравится как упорото оно звучит.
Там не хватает про то, что можно, например, делать самому датасеты из своей музыки, и давать к ней доступ через смарт контракты с выплатами за каждое использование на ваших условиях. Реализовать всё, скажем, через бота в телеге дабы иметь контроль у себя в руках. Из рабочих проектов, на лицензированном датасете работает Korus, например (пусть и не через телегу).
3 минуты
30 июня 2024