Искусственный интеллект озвучивает диафильмы из коллекции НЭБ.Дети. Российская государственная детская библиотека начала озвучивать диафильмы с помощью речевых технологий SpeechKit от Yandex. Сразу оговоримся – мы не посягаем на святое и не пытаемся скормить «бездушному, лишенному эмпатии роботу» любимые детские сказки, рассказы и стихи. Речь идет о видовых или научно-познавательных диафильмах без текста в кадре, к которым прикладываются брошюры с титрами. Для таких пленок важно правильно произносить сложные слова, названия и фамилии, с чем искусственный интеллект справляется очень хорошо. В реестре диафильмов, который ведет РГДБ, насчитывается более 80 подобных диафильмов. Полных пар – пленка и брошюра – у нас 43. Именно с ними мы и работаем.
Первым делом происходит сканирование и распознавание брошюры. Полученный текст тщательно вычитывается. Проверенный текст будет загружен в электронную библиотеку НЭБ.Дети для обеспечения контекстного поиска.
Дальше начинается подготовка к озвучиванию. Мы применяем технологии синтеза речи Yandex SpeechKit. Голосовые модели SpeechKit используют технологию глубоких нейронных сетей. Перед началом синтеза модель оценивает весь текст целиком, а не отдельные предложения. Благодаря этому синтезированный голос звучит почти естественно, без электронных искажений, и воспроизводит уместные интонации, присущие речи живого человека.
Из предлагаемых сервисом вариантов подбирается голос и эмоциональная окраска. Это процесс субъективный, зависит от темы диафильма, стиля текста и личных предпочтений специалиста. Мой фаворит – мужской голос Антон, эмоциональный фон – нейтральный.
Далее происходит покадровая тестовая озвучка с использование бесплатного сервиса Яндекса. На этом этапе выявляются сложные места, в которых ИИ требуются дополнительные указания. Это можно сделать с использованием TTS-разметки. Разметка дает возможность управлять синтезом речи при помощи специальных символов и тегов. Это позволяет сделать синтезированную речь более естественной. Можно явно указать паузу, проставить ударение, выделить акцент. В результате мы получаем текстовый файл с разметкой, где каждая строка соответствует титрам одного кадра.
Теперь можно обработать такой файл скриптом, написанном на языке Python. Через 30 секунд скрипт выдает готовую звуковую дорожку длительностью 12-15 минут, собранную по канонам звукового сопровождения к диафильмам. Между титрами вставлен характерный звуковой сигнал, по которому нужно переводить кадры диафильма.
Немного об экономике процесса. Наиболее затратный подготовительный период занимает от 70 до 90 минут. Скрипт работает 30 секунд. При таком способе использования сервиса SpeechKit единицей тарификации является запрос на синтез речи длиной не более 250 символов. На текущий момент стоимость озвучки одного диафильма составляет 12-15 рублей из расчета 16 копеек за один запрос.
Электронная библиотека НЭБ.Дети позволяет воспроизводить звуковые файлы. Диафильмы со звуковым сопровождением сгруппированы в коллекцию «Диафильмы с озвучкой», которая регулярно пополнятся пленками, озвученными ИИ. Это экскурсии по городам и усадьбам, выставкам и музеям, которые теперь проходят в сопровождении аудио-гида. И в большинстве случаев голос звучит очень по-человечески. Послушайте сами!
Пока не очень хорошо получается читать стихи, но это только вопрос времени.
Рекомендации по просмотру озвученных диафильмов:
- запустите озвучку,
- откройте диафильм,
- перейдите в полноэкранный режим,
- переводите кадры по звуковому сигналу
Если вы убежденный противник использования искуственного интеллекта, то просто смотрите диафильмы в коллекции НЭБ.Дети. Их там более 6000!
Если у вас есть диафильмы с брошюрами, поделитесь с нами информацией. А дальше договоримся!
Илья Гавришин, зам. директора РГДБ по информатизации и фондам
Подписывайтесь на канал НЭБ.Дети