1680 подписчиков

Что «нашепчут» полиглоту: новая крупнейшая нейросеть распознавания речи

7 октября 20227 окт 2022

~1 мин

OpenAI опубликовала исходный код системы распознавания речи Whisper (переводится «шепот»). Сеть понимает множество языков, включая русский — она обучалась на 680 000 часов аудио, собранных из нескольких коллекций по разным темам и на разных языках.

Whisper работает на архитектуре нейросети Transformer, которая включает кодировщик и декодировщик. Звук разбивается на 30-секундные отрывки, которые преобразуются в log-Mel-спектограмму и передаются кодировщику. Затем данные направляются в декодировщик, который предсказывает текстовое представление.

Whisper может корректно воспринимать произношение с акцентом, распознавать фоновые шумы, а также технические термины и жаргон. Система способна переводить с произвольного языка на английский язык, а также выявлять речь в общем звуковом потоке.