Найти в Дзене
Craft Homelab

WhisperLiveKit – голос в текст в реальном времени с идентификацией говорящих

WhisperLiveKit – голос в текст в реальном времени с идентификацией говорящих 🎙️✨ Если вам нужны точные и быстрые расшифровки речи прямо в браузере, стоит присмотреться к WhisperLiveKit. Это Python-проект для локального стриминга речи в текст с минимальными задержками и возможностью определять, кто именно говорит – удобно для конференций, подкастов и колл-центров. Преимущества: - Использует передовые алгоритмы для сверхнизкой задержки: SimulStreaming и WhisperStreaming, которые умеют адекватно обрабатывать речь по кусочкам, а не целиком, чтобы не терять контекст. - Встроенная диаризация с выбором из нескольких SOTA моделей, чтобы разделять голоса и понимать, кто говорит. - Голосовая активность (VAD) от Silero позволяет отключать транскрипцию, когда тишина. - Простая установка через pip и легкий запуск с веб-интерфейсом для мгновенного теста. - Работает с разными языками и несколькими моделями Whisper, в том числе крупными с улучшенным качеством. - Можно разворачивать на сервере с мн

WhisperLiveKit – голос в текст в реальном времени с идентификацией говорящих 🎙️✨

Если вам нужны точные и быстрые расшифровки речи прямо в браузере, стоит присмотреться к WhisperLiveKit. Это Python-проект для локального стриминга речи в текст с минимальными задержками и возможностью определять, кто именно говорит – удобно для конференций, подкастов и колл-центров.

Преимущества:

- Использует передовые алгоритмы для сверхнизкой задержки: SimulStreaming и WhisperStreaming, которые умеют адекватно обрабатывать речь по кусочкам, а не целиком, чтобы не терять контекст.

- Встроенная диаризация с выбором из нескольких SOTA моделей, чтобы разделять голоса и понимать, кто говорит.

- Голосовая активность (VAD) от Silero позволяет отключать транскрипцию, когда тишина.

- Простая установка через pip и легкий запуск с веб-интерфейсом для мгновенного теста.

- Работает с разными языками и несколькими моделями Whisper, в том числе крупными с улучшенным качеством.

- Можно разворачивать на сервере с многопоточностью и использовать Docker, поддерживается запуск с GPU.

Идеально для тех, кто хочет свои проекты или сервисы по распознаванию речи сделать гибкими, быстрыми и удобными для пользователей без затрат на облака.

#голос #транскрипция #whisper #python #реальноевремя #ai #diarization #opensource

https://github.com/QuentinFuxa/WhisperLiveKit

https://dzen.ru/id/68959c2aedc8701121290cd6