Найти в Дзене
T4S.TECH

HierSpeech++: новый подход к синтезу речи

HierSpeech
HierSpeech

T4S.TECH

HierSpeech++ — модель машинного обучения для озвучивания текста. Инструмент представили сотрудники южнокорейского Университета Корё.

Разработчики заявляют, что распространенная языковая модель LLM ограничена. Медленная скорость вывода, отсутствие надежности и обучение нейросети на массиве данных.

Модель LLM использовалась при создании ChatGPT.

В HierSpeech++ используется модель TTS для конвертации текста в речь и VC для преобразования голоса. Южнокорейские разработчики считают, что иерархические структуры повысят надежность и сделают синтетическую речь выразительной. Озвучивание текстов происходит без предварительного обучения нейросети.

На странице проекта опубликованы примеры преобразования текста в речь. Представлены сравнения с конкурентными моделями.

Демо-версия HierSpeech++ развернута на площадке Hugging Face. Тестирование модели открыто для авторизованных пользователей.

Открытый исходный код размещен в GitHub-репозитории.

Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.