Компания AI VK усовершенствовала технологию автоматического распознавания речи (ASR) на основе моделей машинного обучения. Об этом 8 декабря сообщили в пресс-службе VK. Благодаря улучшению функции на платформах группы речь распознается на 20% точнее по сравнению с предыдущей версией. Усовершенствование помогло повысить качество субтитров, расшифровок голосовых сообщений и «кружочков». Технология превращает голос в текст таким образом: она переводит звук в цифровой формат и очищает запись от шума. После анализируются особенности звучания для распознавания слов. LLM и нейросетевые модели помогают системе улавливать контекст и находить в речи устойчивые выражения. Так расшифровка получается естественной и точной. Новую версию технологии по распознаванию речи дообучили на расширенном датасете аудиодорожек из открытых видеороликов «VK Видео». Внутренние тесты показали, что модель справляется с русским языком лучше зарубежных аналогов. ASR-технологии VK используются в создании субтитров в «V
VK усовершенствовала функцию преобразования речи в текст в продуктах группы
8 декабря 20258 дек 2025
7
1 мин