Добавить в корзинуПозвонить
Найти в Дзене
Чисто Музыка

Заставил нейросеть обсуждать Моргенштерна* или почему ИИ пока не заменит живых ведущих

Я просто включил "Мою волну". Алгоритм подкинул трек Пустой вокзал Моргенштерна. И тут в голову пришла странная идея. А что, если обсудить этот меланхоличный релиз не в текстовом посте, а в формате аудиошоу? Только вот микрофона под рукой не было, да и соведущего тоже. Алоха, меломаны! С вами канал "ЧистоМузыка".
В этот я решил создать небольшой подкаст. Поэтому я решил делегировать эту задачу нейросетям. Текст для обсуждения мне быстро набросал один популярный ИИ-чат, который вы все знаете. А вот озвучивать всё это я отправился в сервис ElevenLabs. Я давно использую эту платформу для мелких задач по озвучке. У них огромная база голосов: от бархатных баритонов до бодрых радиоведущих. Казалось, всё будет просто. Закинул текст, нажал кнопку и забирай готовый MP3. Но реальность быстро щелкнула меня по носу. Главная проблема заключалась в интерфейсе. Я пошел по самому очевидному, но, как оказалось, тупому пути. Я открыл базовую вкладку генерации. Добавил реплику. Выбрал первый голос. Встав
Оглавление

Я просто включил "Мою волну". Алгоритм подкинул трек Пустой вокзал Моргенштерна. И тут в голову пришла странная идея. А что, если обсудить этот меланхоличный релиз не в текстовом посте, а в формате аудиошоу? Только вот микрофона под рукой не было, да и соведущего тоже.

Алоха, меломаны! С вами канал "ЧистоМузыка".
В этот я решил создать небольшой подкаст. Поэтому я решил делегировать эту задачу нейросетям. Текст для обсуждения мне быстро набросал один популярный ИИ-чат, который вы все знаете. А вот озвучивать всё это я отправился в сервис
ElevenLabs.

Я давно использую эту платформу для мелких задач по озвучке. У них огромная база голосов: от бархатных баритонов до бодрых радиоведущих. Казалось, всё будет просто. Закинул текст, нажал кнопку и забирай готовый MP3. Но реальность быстро щелкнула меня по носу.

Метод тыка: как я пошел по самому тупому пути

Главная проблема заключалась в интерфейсе. Я пошел по самому очевидному, но, как оказалось, тупому пути. Я открыл базовую вкладку генерации. Добавил реплику. Выбрал первый голос. Вставил текст. Потом нажал "добавить блок". Сменил голос на второй. Снова вставил текст. И так по кругу.

Я сидел, кликал, плевался, но продолжал собирать этот пазл. На самом деле весь процесс занял минут пять. Это не так уж долго, но дико неудобно, когда хочешь просто скормить ИИ готовый сценарий.

Сколько стоит голос нейросети (спойлер: недешево)

Теперь о цене вопроса. ИИ-подкасты - удовольствие не самое дешевое. На бесплатном тарифе (или базовой подписке) вам дают 10 000 символов-кредитов в месяц. Мой итоговый аудиоролик длится 3 минуты 51 секунду.

И знаете, сколько кредитов он сожрал? Порядка четырех тысяч. То есть один такой короткий выпуск съедает почти половину месячного лимита. Для пробы формата - терпимо. Но для регулярного шоу придется раскошелиться на дорогие тарифы.

Эффект зловещей долины или почему ИИ звучит слишком идеально

Когда подкаст наконец сгенерировался (ElevenLabs дает два варианта), я нажал на "Play". И испытал очень странное чувство.

С одной стороны, голоса звучали невероятно круто. Четкая дикция, правильные ударения, отличные тембры. ИИ послушно прочитал весь мой сценарий от первой до последней буквы. Если включить это фоном, можно вообще не понять, что говорят алгоритмы.

Но с другой стороны, магия разрушалась в деталях. Я впервые делал диалог и допустил классическую ошибку новичка. Я сделал реплики слишком короткими. По одному-два предложения на каждого спикера.

В жизни люди так не общаются. Мы перебиваем друг друга, выдаем длинные монологи, делаем паузы, чтобы набрать воздух. А тут получился слишком динамичный, рубленый пинг-понг.

Вторая проблема - идеальная стерильность. Голоса звучали слишком ровно. В них не было эмоциональных качелей. Никто не говорил чуть тише на серьезных моментах и не повышал голос от восторга.

Чтобы подкаст звучал живо, нужно прописывать специальные теги в тексте. Нейросеть отлично понимает команды вроде [смех], [вздох] или [пауза]. Но я этот момент благополучно упустил. Вернее сказать, я слишком мало использовал, тут рекомендую не стесняться и добавлять теги в каждой реплике. А мой текст получился суховатым, машина прочитала его так же - профессионально, но без души.

Заменят ли алгоритмы живых ведущих?

Оцениваю ли я этот опыт как успешный? Однозначно да. Алгоритм сделал ровно то, что я попросил.

Проблема была не в ИИ, а в моем промпте. Чтобы делать реально качественные шоу, нужно больше работать с контекстом. Играть с тегами, писать более "грязный" разговорный текст, пробовать генерировать куски по несколько раз, добиваясь нужной интонации.

Что имеем по итогу?

Инструмент уже готов. Вопрос только в том, есть ли у вас необходимость делать такие подкасты регулярно. У меня ее пока нет. Я просто хотел проверить, на что способны технологии прямо сейчас.

Они способны на многое. Но режиссировать этот цифровой театр все равно придется живому человеку. Сам подкаст про Пустой вокзал я прикрепил ниже - послушайте и оцените уровень технологий сами.

А вы бы стали слушать подкасты, зная, что их ведут нейросети? Напишите в комментариях, мне интересно ваше мнение. И подписывайтесь на канал, чтобы не пропустить новые эксперименты с музыкой и алгоритмами.
Всем Музыки :)

*Алишер Моргенштерн признан иностранным агентом на территории РФ.