11 тыс подписчиков

🗣7 инструментов распознавания речи

13 июля 202213 июл 2022

196

1 мин

Чтобы разработать собственную ML-систему распознавания речи, можно воспользоваться следующими фреймворками и библиотеками: • wav2letter – open-course набор инструментов с открытым исходным кодом от Facebook AI Research, объединенный с более крупной библиотекой под названием Flashlight https://github.com/flashlight/wav2letter • DeepSpeech на базе Baidu DeepSpeech, который помоможет расшифровать аудиофайл, используя предварительно обученные модели, или настроить/обучить пользовательский набор данных https://deepspeech.readthedocs.io/en/r0.9/?badge=latest • TensorFlowASR – пакет с открытым исходным кодом от Tensorflow реализует некоторые эталонные модели, обученные с использованием RNN с CTC https://github.com/TensorSpeech/TensorFlowASR • OpenSeq2Seq - исследовательский проект от NVIDIA по проблемам преобразования последовательностей в последовательности https://github.com/NVIDIA/OpenSeq2Seq/blob/master/Streaming-ASR.ipynb • SpeechRecognition - проект предоставляет доступ к нескольким мо

Чтобы разработать собственную ML-систему распознавания речи, можно воспользоваться следующими фреймворками и библиотеками:

• wav2letter – open-course набор инструментов с открытым исходным кодом от Facebook AI Research, объединенный с более крупной библиотекой под названием Flashlight https://github.com/flashlight/wav2letter

• DeepSpeech на базе Baidu DeepSpeech, который помоможет расшифровать аудиофайл, используя предварительно обученные модели, или настроить/обучить пользовательский набор данных https://deepspeech.readthedocs.io/en/r0.9/?badge=latest

• TensorFlowASR – пакет с открытым исходным кодом от Tensorflow реализует некоторые эталонные модели, обученные с использованием RNN с CTC https://github.com/TensorSpeech/TensorFlowASR

• OpenSeq2Seq - исследовательский проект от NVIDIA по проблемам преобразования последовательностей в последовательности https://github.com/NVIDIA/OpenSeq2Seq/blob/master/Streaming-ASR.ipynb

• SpeechRecognition - проект предоставляет доступ к нескольким моделям автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM https://github.com/Uberi/speech_recognition

Также отметим 2 готовых сервиса, которые предоставляют API для доступа к возможностям сервисов, от распознавания речи до генерации «естественных» голосовых данных:

• SmartSpeech от СберDevices https://sberdevices.ru/smartspeech/

• Yandex SpeechKit от Яндекса https://cloud.yandex.ru/services/speechkit

t.me

Анализ данных (Data analysis)

#machinelearning #artificialintelligence #ai #datascience #python #programming #technology #deeplearning #bigdata #computerscience

Гаджеты и электроника

5,73 млн интересуются