2134 подписчика

Чтец один, а голосов много. В новой аудиопостановке Игоря Орлова звучат голоса, сгенерированные нейросетью

26 апреля 202526 апр 2025

2 мин

Любители аудиокниг и аудиосериалов, часто заглядывают на интернет-платформу FabulaNova, где регулярно появляются интересные новинки. Недавно на сайте, была опубликована аудиопостановка «…И улыбка на твоем лице», некоторые герои которой озвучены по новой технологии с использованием ИИ. Автор сценария и звукорежиссер Игорь Орлов рассказал нашему блогу «Книжный слушатель», как он сочетал возможности живых и искусственных голосов с помощью нейросети. - Игорь, вы с 2012 года создаете аудиопостановки с объемным звуком и участием многих актеров. Почему вы решили использовать нейросеть в работе? - У нас в студии «EagleSound» записаны более десяти аудиосериалов, которые выложены на платформе FabulaNova. В этих работах я был автором сценариев, музыки и пост продакшн, а для озвучания сценариев приглашал актеров. Найти подходящий голос непросто, не у всех актеров театра или кино получается «играть» у микрофона. Кроме того, приглашённые актеры стоят недёшево. Поэтому я решил поэкспериментировать с

- Игорь, вы с 2012 года создаете аудиопостановки с объемным звуком и участием многих актеров. Почему вы решили использовать нейросеть в работе?

- У нас в студии «EagleSound» записаны более десяти аудиосериалов, которые выложены на платформе FabulaNova. В этих работах я был автором сценариев, музыки и пост продакшн, а для озвучания сценариев приглашал актеров. Найти подходящий голос непросто, не у всех актеров театра или кино получается «играть» у микрофона. Кроме того, приглашённые актеры стоят недёшево. Поэтому я решил поэкспериментировать с ИИ. Долго выбирал нейросеть, которая подходит для моих задач и может работать автономно. Написал небольшой сценарий с сюжетом, давно волновавшем меня, затем сам начитал все монологи и диалоги в студии. Свою речь я преобразовал через голосовую модель, для создания которой потребовалось немало времени. Главный герой новой аудиопостановки Павел говорит моим собственным голосом, а у других персонажей – искусственные голоса, сгенерированные нейросетью с нужным тембром и окраской.

Как происходит создание искусственных голосов?

- На моем компьютере установлена нейросеть, которая может моделировать новые голоса. Я обучаю будущие модели на старых аудиозаписях, ищу подходящие тембры и правильную речь. Далее я делаю миксы, скрещиваю разные модели, чтобы получить новый сгенерированный голос. Иногда нужный тембр приходится долго конструировать и собирать. Затем новый голос обучается уже на моих треках, где учтены интонации персонажей, будь то подвыпивший мужчина, огорченная женщина или капризный ребенок. Обучение модели требует скрупулезных настроек, чтобы слова не были исковерканы и звучали правильно. Потребовалось почти полгода, чтобы обучить и отредактировать те голоса, которые Вы слышите в аудиопостановке.

-Такая технология по сочетанию живого и искусственного голоса уже использовалась кем-то или вы ее разработали самостоятельно?

- В интернете есть небольшие видеоролики и треки песен с подменой голоса. Но в аудиопостановках или в аудиосериалах я такого не встречал. Может быть, мы сделали это первыми. И эксперимент оказался полезным. Стало понятно, как конструировать голоса и оптимизировать настройки для обучения нейросети, какие креативные возможности открываются в работе. Дальше будет проще; искусственные голоса, выращенные в нейросети, станут звучать ещё лучше . У меня есть интересные сценарные идеи, теперь я планирую реализовать их именно с нейросетью. Особо хочу поблагодарить студию FabulaNova за сотрудничество и поддержку.