Найти в Дзене

Микросервис по генерации аудиокниг от Дженервис

Имея на руках микросервисное решение, мы подумали, почему бы, если уже задействуется ресурсы небольшого домашнего сервера, не сделать все то, за что обычно просят деньги сервисы в сети Интернет, доступным локально для наших нужд? Таким образом, как одно из решений, которое уже реально получилось и работает (спасибо и нейросети за поддержку при написании кода) - это прикладное использование известного и одного из мощнейших синтезатора речи. Работает следующим образом: пишешь в окно текст на русском и английском языках. Похожие друг на друга соответствующие голоса подхватывают текст и при нажатии на "озвучить текст" выдают .mp3 файл в загрузках браузера. Можно отрегулировать скорость речи диктора. Аналогично озвучивает и целый docx-документ. У приложения есть собственное небольшое API, чтобы использовать его без необходимости в других микросервисах и приложениях Genervis инициализировать примитивные библиотеки и функции. На уровне API теперь именно внутри экосистемы Genervis можно прос
TTS: синтез речи от Дженервис, озвучка текста
TTS: синтез речи от Дженервис, озвучка текста

Имея на руках микросервисное решение, мы подумали, почему бы, если уже задействуется ресурсы небольшого домашнего сервера, не сделать все то, за что обычно просят деньги сервисы в сети Интернет, доступным локально для наших нужд?

Таким образом, как одно из решений, которое уже реально получилось и работает (спасибо и нейросети за поддержку при написании кода) - это прикладное использование известного и одного из мощнейших синтезатора речи.

Работает следующим образом: пишешь в окно текст на русском и английском языках. Похожие друг на друга соответствующие голоса подхватывают текст и при нажатии на "озвучить текст" выдают .mp3 файл в загрузках браузера. Можно отрегулировать скорость речи диктора.

Аналогично озвучивает и целый docx-документ.

Генерация не только из текста, но и из docx-файла
Генерация не только из текста, но и из docx-файла

У приложения есть собственное небольшое API, чтобы использовать его без необходимости в других микросервисах и приложениях Genervis инициализировать примитивные библиотеки и функции. На уровне API теперь именно внутри экосистемы Genervis можно просто написать функцию вида "Сгенерируй из этого текста вот этим голосом mp3".

API TTS-генератора от Genervis
API TTS-генератора от Genervis

Для авторов литературных произведений выгода понятна: можно создать полноценную аудиоверсию книги, но не зависеть от автогенератора Литрес, а получить на выходе свою mp3-версию. Для ученых есть возможность через подобные системы озвучки слушать статьи в метро или машине, либо вообще во время прогулки.

Но качество будет чуть лучше, чем если включать инвалидные функции в самой операционной системе, ведь алгоритмы нацелены не на встраивание в операционную систему, а здесь можно установить любой желаемый синтезатор и подстраивать максимально весь данный функционал под себя, не завися от ограничений других классических решений.

В качестве перспектив есть следующие идеи:

1) озвучка аугментированных данных в сервисах визуализации текстовых данных: пользователь из нескольких абзацев с использованием транспортеров и наших алгоритмов создал целый документ (техническое задание, должностную инструкцию), затем он может в один клик без особых проблем его озвучить, чтобы ознакомиться с его аудиоверсией во время прогулки;

2) пользователь получает объяснение сложной темы от ИИ → автоматически озвучивается выбранным голосом (как задача будущей экосистемы Genervis);

3) после генерации аналитического отчёта через Genervis Vision (или другой модуль) — автоматическая озвучка ключевых выводов. Например: «На графике наблюдается рост продаж на 27% в Q4…» → звучит как краткий подкаст по данным;

4) создание аудиоподкастов "из коробки";

5) голосовые заметки на основе текста: пользователь создал запись, которую некогда озвучить, но опубликовал ее аудиоверсию и, спустя неделю, вспомнил, что он отмечал в тексте;

6) озвучка для корпораций в коробочкой версии продукта Genervis: микросервис ставится локально внутри компании, данные не утекают наружу;

7) интеграция с умным домом / Iot: мы не зависим от ответа, который генерирует Яндекс-станция и подобные устройства. Можно создавать собственные ответы, которые будут озвучиваться любыми кастомными устройствами для умного дома.