Команда Hugging Face представила новую разработку — Speech-to-Speech модель, которая, по их словам, является шагом на пути к созданию опенсорсной и модульной версии GPT-4. В отличие от мультимодальных решений от OpenAI, эта модель построена на основе комбинации отдельных компонентов, что дает пользователям больше гибкости.
Проект собрал уже более 2700 звезд на GitHub и включает следующие ключевые элементы:
Voice Activity Detection (VAD): Модель использует Silero VAD v5 для обнаружения активности голоса и управления процессом обработки.
Speech to Text (STT): Для преобразования речи в текст применяется Whisper, включая его оптимизированные версии, такие как Distil-Whisper.
Language Model (LM): Полностью модульная часть, позволяющая использовать любую доступную на Hugging Face Hub языковую модель.
Text to Speech (TTS): Для преобразования текста обратно в речь используется Parler-TTS, с возможностью применения различных предварительно обученных и многоязычных контрольных точек.
Этот проект особенно интересен благодаря своей модульности. Каждый компонент реализован как отдельный класс, что позволяет пользователям легко адаптировать модель под свои нужды. Интересно и то, что эта модель поддерживает динамическое переключение языков с задержкой всего в 100 миллисекунд, что делает её подходящей для многоязычных приложений.
Для работы с моделью можно использовать как локальный режим, так и серверную конфигурацию. Поддерживается работа с Docker, а также предусмотрены оптимальные настройки для пользователей Mac. Код открыт для модификации, и каждый может экспериментировать с различными конфигурациями, чтобы найти наиболее подходящее решение для своих задач.
Все детали и инструкции по установке доступны в репозитории на GitHub.
______________________________________
Всех, кто интересуется последними новинками из мира AI призываем подписываться на наш канал. А тех, кто уже сейчас хочет попробовать себя в роли нейрокреатора, приглашаем на наш сайт.