Команда Hugging Face представила новую разработку — Speech-to-Speech модель, которая, по их словам, является шагом на пути к созданию опенсорсной и модульной версии GPT-4. В отличие от мультимодальных решений от OpenAI, эта модель построена на основе комбинации отдельных компонентов, что дает пользователям больше гибкости. Проект собрал уже более 2700 звезд на GitHub и включает следующие ключевые элементы: Voice Activity Detection (VAD): Модель использует Silero VAD v5 для обнаружения активности голоса и управления процессом обработки. Speech to Text (STT): Для преобразования речи в текст применяется Whisper, включая его оптимизированные версии, такие как Distil-Whisper. Language Model (LM): Полностью модульная часть, позволяющая использовать любую доступную на Hugging Face Hub языковую модель. Text to Speech (TTS): Для преобразования текста обратно в речь используется Parler-TTS, с возможностью применения различных предварительно обученных и многоязычных контрольных точек. Этот проект