Допустим у вас есть тысячи аудио файлов со звонками менеджеров отдела продаж или службы поддержки, а может в архиве сотник записей лекций и т.п. Как в таком большом массиве данных понять какое содержание этих файлов и желательно быстро? Не слушать же всё это! Одно из решений – это код на python и модель Vosk для перевода звука в текст. Vosk – это бесплатная open source модель для расшифровывания (транскрибации) речи из аудиофайлов в текст. Библиотека включает в себя несколько языков, в том числе и русский язык. А ещё: В начале нужно установить библиотеку FFmpeg для работы со звуком. Как это сделать, описано здесь. Следующее, что необходимо сделать – скачать подходящую модель Vosk. Ссылки на все модели расположены на странице проекта. Для русского языка, на момент написания этой статьи, доступно четыре модели: Скачиваем архив и распаковываем в папку проекта или в любую другую папку. Также предполагаем, что на компьютере уже есть массив звуковых файлов. Как получить данные по всем звонк
Как перевести звук в текст с помощью python и модели Vosk
13 августа 202413 авг 2024
364
2 мин