Специалисты Сбера разработали метод HuBERT-CTC, который повышает точность автоматического распознавания русской речи искусственным интеллектом (ИИ). Технология была представлена на международной конференции Interspeech 2025. Метод использует целевые переменные из CTC-модели распознавания, что позволяет формировать более семантические представления данных. Существующие модели обычно опираются на низкоуровневые акустические переменные. Новый подход показал значительное улучшение в обработке русского языка. Он снижает количество ошибок распознавания на 50% по сравнению с моделью Whisper-large-v3 от OpenAI. Важное преимущество технологии — возможность обучения на неразмеченных аудиоданных. Это решает проблему дефицита качественных размеченных данных для обучения ИИ-моделей. Метод масштабируется по размеру модели и объёму данных. Одна архитектура работает как в онлайн-, так и в офлайн-режиме без необходимости переобучения. Разработка может быть применена в голосовых помощниках, контакт-цент