Чтобы разработать собственную ML-систему распознавания речи, можно воспользоваться следующими фреймворками и библиотеками:
• wav2letter – open-course набор инструментов с открытым исходным кодом от Facebook AI Research, объединенный с более крупной библиотекой под названием Flashlight https://github.com/flashlight/wav2letter
• DeepSpeech на базе Baidu DeepSpeech, который помоможет расшифровать аудиофайл, используя предварительно обученные модели, или настроить/обучить пользовательский набор данных https://deepspeech.readthedocs.io/en/r0.9/?badge=latest
• TensorFlowASR – пакет с открытым исходным кодом от Tensorflow реализует некоторые эталонные модели, обученные с использованием RNN с CTC https://github.com/TensorSpeech/TensorFlowASR
• OpenSeq2Seq - исследовательский проект от NVIDIA по проблемам преобразования последовательностей в последовательности https://github.com/NVIDIA/OpenSeq2Seq/blob/master/Streaming-ASR.ipynb
• SpeechRecognition - проект предоставляет доступ к нескольким моделям автоматического распознавания речи, включая оболочки для речевых API от Google, Microsoft Azure и IBM https://github.com/Uberi/speech_recognition
Также отметим 2 готовых сервиса, которые предоставляют API для доступа к возможностям сервисов, от распознавания речи до генерации «естественных» голосовых данных:
• SmartSpeech от СберDevices https://sberdevices.ru/smartspeech/
• Yandex SpeechKit от Яндекса https://cloud.yandex.ru/services/speechkit
#machinelearning #artificialintelligence #ai #datascience #python #programming #technology #deeplearning #bigdata #computerscience