Микросервис по генерации аудиокниг от Дженервис

12 января12 янв

2 мин

Имея на руках микросервисное решение, мы подумали, почему бы, если уже задействуется ресурсы небольшого домашнего сервера, не сделать все то, за что обычно просят деньги сервисы в сети Интернет, доступным локально для наших нужд? Таким образом, как одно из решений, которое уже реально получилось и работает (спасибо и нейросети за поддержку при написании кода) - это прикладное использование известного и одного из мощнейших синтезатора речи. Работает следующим образом: пишешь в окно текст на русском и английском языках. Похожие друг на друга соответствующие голоса подхватывают текст и при нажатии на "озвучить текст" выдают .mp3 файл в загрузках браузера. Можно отрегулировать скорость речи диктора. Аналогично озвучивает и целый docx-документ. У приложения есть собственное небольшое API, чтобы использовать его без необходимости в других микросервисах и приложениях Genervis инициализировать примитивные библиотеки и функции. На уровне API теперь именно внутри экосистемы Genervis можно прос

Таким образом, как одно из решений, которое уже реально получилось и работает (спасибо и нейросети за поддержку при написании кода) - это прикладное использование известного и одного из мощнейших синтезатора речи.

Работает следующим образом: пишешь в окно текст на русском и английском языках. Похожие друг на друга соответствующие голоса подхватывают текст и при нажатии на "озвучить текст" выдают .mp3 файл в загрузках браузера. Можно отрегулировать скорость речи диктора.

Аналогично озвучивает и целый docx-документ.

У приложения есть собственное небольшое API, чтобы использовать его без необходимости в других микросервисах и приложениях Genervis инициализировать примитивные библиотеки и функции. На уровне API теперь именно внутри экосистемы Genervis можно просто написать функцию вида "Сгенерируй из этого текста вот этим голосом mp3".

Для авторов литературных произведений выгода понятна: можно создать полноценную аудиоверсию книги, но не зависеть от автогенератора Литрес, а получить на выходе свою mp3-версию. Для ученых есть возможность через подобные системы озвучки слушать статьи в метро или машине, либо вообще во время прогулки.

Но качество будет чуть лучше, чем если включать инвалидные функции в самой операционной системе, ведь алгоритмы нацелены не на встраивание в операционную систему, а здесь можно установить любой желаемый синтезатор и подстраивать максимально весь данный функционал под себя, не завися от ограничений других классических решений.

В качестве перспектив есть следующие идеи:

1) озвучка аугментированных данных в сервисах визуализации текстовых данных: пользователь из нескольких абзацев с использованием транспортеров и наших алгоритмов создал целый документ (техническое задание, должностную инструкцию), затем он может в один клик без особых проблем его озвучить, чтобы ознакомиться с его аудиоверсией во время прогулки;

2) пользователь получает объяснение сложной темы от ИИ → автоматически озвучивается выбранным голосом (как задача будущей экосистемы Genervis);

3) после генерации аналитического отчёта через Genervis Vision (или другой модуль) — автоматическая озвучка ключевых выводов. Например: «На графике наблюдается рост продаж на 27% в Q4…» → звучит как краткий подкаст по данным;

4) создание аудиоподкастов "из коробки";

5) голосовые заметки на основе текста: пользователь создал запись, которую некогда озвучить, но опубликовал ее аудиоверсию и, спустя неделю, вспомнил, что он отмечал в тексте;

6) озвучка для корпораций в коробочкой версии продукта Genervis: микросервис ставится локально внутри компании, данные не утекают наружу;

7) интеграция с умным домом / Iot: мы не зависим от ответа, который генерирует Яндекс-станция и подобные устройства. Можно создавать собственные ответы, которые будут озвучиваться любыми кастомными устройствами для умного дома.

Гаджеты и электроника

5,73 млн интересуются