OpenAI опубликовала исходный код системы распознавания речи Whisper (переводится «шепот»). Сеть понимает множество языков, включая русский — она обучалась на 680 000 часов аудио, собранных из нескольких коллекций по разным темам и на разных языках.
Whisper работает на архитектуре нейросети Transformer, которая включает кодировщик и декодировщик. Звук разбивается на 30-секундные отрывки, которые преобразуются в log-Mel-спектограмму и передаются кодировщику. Затем данные направляются в декодировщик, который предсказывает текстовое представление.
Whisper может корректно воспринимать произношение с акцентом, распознавать фоновые шумы, а также технические термины и жаргон. Система способна переводить с произвольного языка на английский язык, а также выявлять речь в общем звуковом потоке.